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用 LION 软件 Sweeper 分 析 神 经 网 络 的 输出 。 输 昌 
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输入 参数 的 函数 。 图 中 展示 了 颜色 编码 的 输出 〈 左 ) 和 表面 图 ( 右 
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图 10-4 ”代码 由 一 个 2000-500-250-125-2 自 编 码 器 根据 路 透 社 的 新 闻 故 事 生 成 。 图 中 用 不 同 的 
颜色 对 应 于 不 同 主题 的 聚 类 , 这 是 清晰 可 见 的 〈 详 见 参考 文献 [57]) 
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图 17-5 ”一 个 SOM, 颜色 和 大 小 取决 于 二 维 原 型 向 量 的 两 个 坐标 , 可 以 将 鼠标 移 到 神经 元 上 来 
显示 原型 的 值 (通过 LIONoso.org 提供 的 软件 ) 
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图 19-2 ”社交 网 络 分 析 : 美国 议员 的 可 视 化 网 络 。 两 个 政党 〈 从 聚 类 软件 无 法 得 到 ) 呈现 出 
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1.1 学 习 与 智能 优化 : BRZA 


优化 是 指 为 了 找到 更 好 的 解决 方案 而 进行 的 自动 化 搜寻 过 程 。 可 以 说 , 流程 、 方 案 、 产 
品 和 服务 之 所 以 能 持续 改进 ， 正 是 缘 于 优化 为 之 提供 的 强大 动力 。 优 化 不 仅 关 平方 案 的 确定 
(从 一 些 给 定 的 可 行 方 案 中 , 选 出 最 好 的 一 个 ), 它 还 能 主动 创造 出 新 的 解决 方案 。 

优化 催生 了 自动 化 的 创造 和 革新 。 这 看 起 来 非常 矛盾 ， 因 为 自动 化 通常 不 会 和 创造 与 
新 联系 起 来 。 因 此 ,那些 相信 机 器 只 能 用 来 处 理 单调 的 重复 性 工作 的 人 们 在 阅读 本 书 时 ， 
觉得 书 中 的 观点 简直 是 胡言 乱 语 ， 甚 至 会 感受 到 如 同 被 挑 峡 一 般 的 慎 私 。 

自 伽 利 略 〈1564 一 1642) 之 后 ， 人 们 和 希望 用 科学 改变 世界 ， 而 这 不 仅 需 要 哲学 上 的 阐释 ， 
还 需要 测量 和 实验 的 支持 。“ 测 量 那 些 可 测量 的 ， 并 使 那些 不 可 测量 的 变 得 可 测量 ,” 测 量 一 
开始 看 起 来 并 不 起 眼 , 但 它 允 许 人 们 用 务实 的 方式 逐渐 改变 世界 ， 只 要 人 们 还 关心 生产 方式 
和 生活 质量 。 

儿 乎 所 有 的 商业 问题 都 可 以 归结 为 寻找 一 个 最 优 决策 值 zs， 这 要 通过 使 某 个 收益 函数 
goodness(x) 最 大 化 来 实现 。 为 了 能 形象 地 理解 , 我 们 假设 有 一 个 集合 变量 z = (£1, En) 
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2 第 1 章 引 = 
它 描述 的 可 以 是 一 个 或 多 个 待 调节 的 旋钮 ， 也 可 以 是 将 要 做 出 的 选择 ， 还 可 以 是 竺 确定 的 参 

















数 。 在 市 场 营销 中 , x 可 以 是 一 个 向 量 , 其 数值 表示 为 各 类 宣传 活动 (电视 、 报 纸 、 各 种 网 站 、 
传 活动 而 产生 的 新 客户 数量 。 在 网 站 优 
E, goodness(a) 则 可 以 是 该 网 站 的 
ELEZ P, z 可 以 是 一 个 汽车 发 动机 的 设计 参数 集 , goodness(x) 


入 

















将 问题 


的 方式 来 领 



































F 交 媒体 ) 分 配 的 预算 , goodness(a) 则 可 以 是 
























































这 些 宣 


























归结 














“疫病 ”将 会 使 企业 无 法 做 出 及 时 的 应 对 。 


自动 化 


入 计算 机 ， 计 算 机 将 自动 创造 


只 需要 


变 时 ， 


=j ra] = f 
是 个 问题 ， 




















化 中 , z 可 以 涉及 图 片 、 链 接 、 话 题 和 不 同 大 小 文本 的 
通 访客 成 为 客户 的 转化 率 。 妊 
则 可 以 是 该 发 动机 每 加 仑 汽油 所 能 行驶 的 英 
为 “优化 一 个 收益 函数 ”也 激励 着 决策 者 , 使 用 量化 的 目标 , 就 可 以 用 可 衡量 
会 宗旨 ,也 就 可 以 专注 于 方针 的 制定 而 非 执 行 的 细 校 末节 。 当 
泥潭 中 ,以 至 于 遗 息 了 目 





Ae 





是 解决 这 个 问题 的 关键 : 将 
































另外 ,， 当 














医改 一 下 收益 函数 的 量化 目 














标 ， 










































































就 是 说 ， 有 














AS HAW 











现实 的 商业 情 





是 咨询 工作 中 
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和 集 过 程 。 


如 果 优 化 是 燃料 ， 那么 点 燃 这 些 燃料 的 火柴 就 是 机 器 学 习 。 机 器 学 习 通 过 气 弃 那 种 明确 
目标 goodness(z) 来 拯救 优化 : 我 们 可 以 通过 丰富 的 数据 来 建立 模型 。 


定义 的 





是 这 些 目标 # 
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并 且 这 一 领先 优势 会 越 来 越 明 


MEL 


















































x 匹配 一 个 结果 。 而 目前 ， 























目标 应 该 会 有 



































至 明确 给 定 的 、 量 化 的 和 数据 驱动 的 决 
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人 们 深 陷 于 执行 的 
标 时 ,企业 就 染 上 了 “疫病 ”， 此 时 如 果 外 界 环境 发 生 了 变化 , 这 种 


个 问题 形式 化 地 表述 后 , 我 们 把 得 到 的 收益 模型 输 
并 找到 一 个 或 多 个 最 佳 的 选项 。 
FEA 
也 并 非 每 次 都 能 保证 找到 全 局 最 优 解决 方案 但 可 以 肯定 的 是 ,使 朋 
寻 , 无 论 是 速度 还 是 范围 ， 都 远 远 领先 于 人 力 搜 

然而 ,在 大 多 数 现实 场景 中 ， 亿 


条 件 和 重点 发 生 改 
可 以 了 。 当 然 ,， CPU 时 间 会 
日 计算 机 来 搜 


化 的 惊人 力量 仍 遭 到 很 大 程度 的 压制 。 优 化 在 现实 中 没 
有 被 广泛 采纳 的 主要 原因 是 ,标准 的 数学 优化 理论 假设 存在 一 个 需要 最 大 化 的 收益 函数 ， 
上 定义 的 模型 goodness(z) 为 每 个 输入 配置 
并 里 ， 这 个 函数 通常 是 不 存在 的 。 即 使 存在 ， 靠 人 力 找到 这 个 函数 也 是 极 
难 、 极 其 昂贵 的 。 试想 , 问 一 个 CEO “请 您 告诉 我 , 优化 您 业务 的 数学 公式 是 什么 ”， 
于 始 对 话 的 最 佳 方式 。 当 然 ， 一 个 经 理 对 于 
没有 以 数学 模型 的 方式 给 定 , 它们 是 动态 的 、 模糊 的 , 会 随 着 时 间 改 变 , 并 且 
限于 估计 误差 和 人 们 的 学 习 进 程 。 直 觉 被 用 来 替代 习 


也 
大 


LPAI 
显然 不 
些 想法 和 权衡 ， 
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学 

















机 器 学 习 与 智能 优化 Cearning and intelligent optimization, LION) 结合 了 学 习 和 优化 ， 
学 习 , 又 将 优化 用 于 解决 复杂 的 、 动态 的 问题 。 LION 方法 提高 了 自动 化 水 平 , 并 


它 从 数据 中 


将 数据 与 决策 、 行动 直接 联系 起 来 。 描述 性 分 析 和 预测 性 分 析 之 后 , LION 的 第 三 阶段 (也 















































是 





最 终 阶 段 ) 是 规范 性 分 析 (prescriptive analysis)。 在 自助 服务 的 方式 中 , 决策 者 手中 直接 握 


有 更 多 的 权力 , 而 不 必 求 助 于 中 间 层 的 数据 科学 家 。 就 像 汽车 
VISAS EAL th 发 动机 的 内 部 


巨大 好 处 。 在 未 来 





大 多 数 行业 
才能 生存 下 
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+e 





HE (司机 ) 并 不 需要 知 


但 是 























来 ， 
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的 发 动机 一 样 , LION 包含 一 
作 原理 , 就 可 以 享用 它 带 来 的 





的 几 十 年 内 , LION 方法 带 来 的 创新 , 将 会 像 野 火 那 样 ,以 烷 原 之 势 延 
。 那 么 企业 就 像 野火 频 发 的 生态 系统 中 的 植物 一 样 ， 只 有 适应 并 所 



































系 
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有 上 抱 LION 技术 
并 繁荣 昌盛 ; 否则 , 无 论 之 前 如 何 兴 盛 , 在 竞争 逐渐 加 剧 的 挑战 面前 , 都 可 能 





1.2 寻找 黄金 和 寻找 伴 但 3 





土崩瓦解 。 





LION 范式 关注 的 并 不 是 数学 上 的 收益 模型 ， 而 是 海量 数据 ， 以 及 如 何 针对 多 种 具体 选 


择 〈 包 括 实际 的 成 功 案例 ) 进行 专家 决策 , 或 者 如 何 交 互 地 定义 成 功 的 标准 。 当 然 , 这 些 都 是 





建立 在 让 人 











门 感觉 轻松 愉快 的 基础 之 上 的 。 例如, 在 市 场 营销 中 ,相关 数据 可 以 描述 之 前 的 








资金 分 配 和 宣传 活动 的 成 效 ; 在 工程 学 中 ,数据 可 以 描述 发 动机 设计 的 实验 (真实 的 或 模拟 
的 ) 和 相应 的 油耗 测量 方式 。 




















1.2 “寻找 黄金 和 寻找 伴侣 








用 于 优化 的 机 器 学 习 需 要 数据 。 数 据 来 源 可 以 是 以 往 的 优化 过 程 , 也 可 以 是 决策 者 的 反馈 。 








要 了 解 这 两 种 情境 ， 先 来 看 两 个 具体 的 例子 。 丹 尼 尔 ” 克 里 金 (Danie G. Krige, JE 











1-1) 是 一 名 南非 的 采矿 工程 师 , 他 曾 遇 到 一 个 问题 : 如 何在 一 张 地 图 上 找到 挖掘 金 矿 的 最 佳 
坐标 TA. KAE 1951 年 ， 他 开创 性 地 将 统计 学 的 思想 应 用 于 新 金 矿 的 估 值 ， 而 这 一 方法 
仅 需 用 到 有 限 的 几 个 矿坑 。 需 要 优化 的 函数 是 Gold(z)， 即 坐标 x 处 的 金 矿 的 金 量 。 当 然 ， 
在 一 个 新 的 地 方 æ 评估 Gold(z) 是 非常 昂贵 的 。 你 可 以 想象 ， 挖 一 个 新 矿 没 那么 快 ， 也 没 

































































那么 简单 。 但 是 在 一 些 试探 性 的 挖掘 之 后 ,工程 师 们 会 积累 一 些 把 坐标 zl, zz, zs … 和 人 金 量 














Gold(a1), Gold(x2), Gold(a3) 关联 起 来 的 实例 知识 。 克 里 金 的 直觉 告诉 他 , 用 这 些 实例 (来 自 
以 往 优化 过 程 的 数据 ) 可 以 建立 起 函数 Gold(z) 的 模型 。 这 个 称 为 GoldModel(z) 的 模型 归纳 
以 往 的 实验 结果 , 为 地 图 上 的 每 个 位 置 z 给 出 金 量 的 估计 值 。 通过 优化 ,这 个 模型 找到 使 预 





计 黄 金 产量 



































GoldModel(z) 最 大 化 的 地 点 zbest， 于 是 这 个 zbest 成 为 下 一 个 挖掘 的 地 点 。 


























图 1-1 丹尼尔 克 里 金 , 克 里 金 法 的 发 明 


























可 以 用 如 图 1-2 所 示 的 模型 来 形象 地 说 明 这 个 过 程 。 先 在 地 图 上 为 每 个 矿坑 插 一 根 针 ， 
每 根 针 的 高 度 取决 于 在 该 处 发 现 的 金 量 。 克 里 金 的 模型 可 以 看 作 基 于 这 些 针 的 “训练 ”信息 














在 整个 地 图 上 方 生成 的 一 个 曲面 ， 
化 意味 着 在 这 个 模型 曲面 上 找到 最 





























使 得 给 定位 置 的 高 度 对 应 当地 的 预计 黄金 产量 。 因 此 , 优 
高 的 那个 点 ， 并 在 对 应 的 地 点 进行 下 一 次 挖掘。 
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图 1-2 ”从 样本 中 使 用 克 里 金 法 构造 模型 。 























赖 于 产 金 量 ( 男 见 彩 插 ) 











这 种 技术 现在 被 称 为 克 里 金 法 (Kriging), 它 背 后 的 理念 
已 知 点 所 对 应 的 值 的 加 权 平 均 ， 权 重 与 这 些 已 外 




















第 二 个 例子 关于 决策 者 的 反馈 。 
选 人 中 匹配 一 个 最 佳 的 约会 对 象 。 在 殉 里 金 法 
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些 样本 在 图 中 用 点 标示 出 来 。 表 面 的 高 度 和 颜色 
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是 未 知 点 对 应 的 值 应 该 是 其 邻近 

















上 点 到 该 未 知 点 的 距离 相关 。 高 斯 过 程 、 贝 叶 
斯 推断 和 样 条 函数 (spline) 都 涉及 了 相关 的 建 模 方法 。 





想象 有 这 检 








一 个 约会 服务 : 人 们 付费 在 数 以 百 万 计 的 候 








By 需要 优化 的 函数 是 存在 的 , 只 是 评估 起 来 极 





为 困难 。 对 于 这 个 案例 ,我 们 很 难 假设 存在 一 个 类 似 的 函数 IdealMate(z)， 它 将 个 人 特征 z， 
例如 美貌 、 智 力 等 ， 与 你 的 个 人 喜好 联系 起 来 。 如 果 你 不 这 么 认为 ， 














数 ， 那 么 给 你 留 一 个 作业 ， 尝试 用 准确 的 数学 术语 来 定义 你 心目 中 理 





且 坚 信和 存在 这 样 一 个 函 























想 伴侣 的 IdealMate ek 


数 。 即 使 你 能 准确 地 指出 某 些 组 成 部 分 , 例如 Beauty(z) 和 Intelligence(x), 但 是 在 开始 寻找 





最 佳 候选 人 之 前 , 把 这 两 个 目标 合并 起 来 仍然 是 困难 


貌 ” 或 者 “美貌 是 否 比 智力 重要 ， 习 
































的 。 像 “降低 多 少 IQ 值 对 应 减少 一 点 美 
E 要 多 少 ” 这 类 问题 是 非常 难 回答 的 。 假使 你 很 痛苦 地 给 出 


了 一 个 初步 答案 ,也 肯定 不 会 相信 这 个 优化 ， 在 真正 见 到 这 个 候选 人 之 前 ,你 不 会 为 这 个 匹 


配 服务 付费 ， 当 然 也 不 会 对 服务 感到 满 


意 。 你 会 想 了 解 这 个 人 的 特 和 


FE， 而 不 仅仅 是 得 到 系统 





优化 的 肤浅 的 IaealMate(z) 函数 值 。 只 有 在 考虑 过 不 同 的 候选 人 并 且 对 这 个 匹配 服务 进行 反 


馈 后 , 你 才能 希望 找到 最 满意 的 男 一 


换 句 话说 ,在 一 开始 ， 待 优化 函数 中 的 某 些 信息 
化 的 过 程 。 许多 现实 问题 , 即使 不 是 大 多 数 , 都 需要 
解 了 越 来 越 多 的 案例 后 ， 用户 会 认识 并 调节 自己 的 喜好 ， 








> 


EDEN, RAR A BES j 








喜好 模型 。 这 一 过 程 将 持续 下 去 , 直到 用 户 满 ; 





意 或 者 直 





到 耗 尽 为 这 一 











借助 有 学 习 参 与 的 迭代 过 程 来 解决 。 在 了 
系统 会 从 用 户 的 反馈 中 建立 起 他 的 














决策 分 配 的 时 间 。 


1.4 超越 传统 的 商业 智能 5 








下 面 继续 谈论 商业 用 户 的 动机 。 如 果 你 不 关心 这 方面 的 内 容 , 可 以 放心 地 跳 过 这 部 分 , 直 
接 阅 读 1.6 节 。 

商业 领域 里 充斥 着 各 种 数字 形式 的 数据 。 大 数据 指 的 是 大 量 的 半 结 构 数 据 。 顺便 提 一 句 ， 
在 20 世纪 七 八 十 年 代 , 数据 对 于 当时 的 存储 设备 来 说 是 庞大 的 , 而 如 今 的 “大 数据 ”更 多 是 
商业 上 的 宣传 概念 : 即便 是 最 大 的 公司 产生 的 所 有 数据 , 只 需 一 台 PC 就 足以 处 理 了 。 

随 着 社交 网 络 的 爆发 、 电 子 商 务 的 迅速 扩张 和 物 联网 的 兴起 ,网 络 正在 掀起 一 场 由 结构 
化 和 非 结 构 化 数据 引起 的 海啸 。 这 场 海 啸 驱使 人 们 在 信息 技术 领域 花费 多 达 数 十 亿美 元 。 也 
有 新 的 证 据 表明 ,标准 的 商业 智能 平台 使 用 率 正 在 下 降 ， 这 是 因为 企业 界 已 经 不 得 不 开始 考 
虑 一 些 非 结构 化 的 数据 ， 而 这 些 数 据 拥 有 无 法 估量 的 现实 价值 。 例 如 ， 社 交 网 络 产生 大 量 的 
数据 ,其 中 的 大 多 数 无 法 分 类 , 也 无 法 用 传统 数据 的 刚性 层次 结构 来 表示 。 试 想 , 你 该 如 何 评 
估 Facebook /.—~S “4%” 的 价值 ? 况且 非 结构 化 数据 需要 用 自 适应 方法 来 分 析 。 再 想 想 ,， 随 
着 时 间 的 流逝 , 一 个 “ 鞠 ” 的 价值 会 发 生 怎样 的 变化 ? 由 于 这 类 问题 的 存在 , 我 们 需要 在 数据 
建 模 、 自 适应 学 习 和 优化 等 领域 运用 更 加 先进 的 技术 。 

为 了 让 软件 能 够 自我 改进 ， 并 能 快速 适应 新 数据 和 调整 后 的 业务 目标 , 需要 使 用 LION 
方法 。 这 种 方法 的 优势 在 于 能 够 从 过 往 的 经 验 中 学 习 、 在 工作 中 学 习 、 应 对 不 完全 的 信息 , 并 
快速 适应 新 的 情况 ， 而 这 些 能 力 通常 只 与 人 类 的 大 脑 联系 起 来 。 

LION 技术 这 种 内 在 的 灵活 性 是 至 关 重 要 的 ， 因 为 在 求解 过 程 开始 之 前 ,我 们 很 可 能 
法 确定 哪些 是 对 决策 有 影响 的 因素 和 重点 。 例 如 ,我们 要 给 一 个 市 场 营销 的 前 景 评分 来 估计 
其 价值 ， 应 该 考虑 哪些 因素 ? 这些 因素 又 对 结果 分 别 有 多 大 程度 的 影响 ? 如 果 使 用 LION 方 
法 的 话 , 这 些 问 题 的 答案 就 是 : “这些 都 不 是 问题 。” 系 统 会 开始 自我 训练 , 源源 不 断 的 数据 加 
上 终端 用 户 的 反馈 将 快速 提升 系统 的 性 能 。 专 家 一 一 这 里 指 营销 经 理 一 一 可 以 通过 表达 他 们 
自己 的 观点 来 改善 系统 的 输出 。 

























































































































































































































































































































































































1.4 ”起 越 传 统 的 商业 智能 


每 一 家 企业 都 需要 数据 来 满足 3 项 基本 需求 : 

(1) 了 解 目 前 的 业务 流程 ,并 评估 以 往 的 表现 ; 

(2) 预测 商业 决策 的 影响 ; 

(3) 对 业务 的 关键 因素 制定 并 执行 明智 且 合 理 的 决定 ， 从 而 提升 赢利 能 

传统 的 描述 型 商业 智能 (business intelligence, BI) 擅 于 记录 和 可 视 化 过 往 的 表现 。 构建 
这 样 的 记录 意味 着 需要 聘请 顶级 顾问 , 或 雇用 那些 有 统计 、 分 析 和 数据 库 等 领域 知识 的 专业 
AR. 专家 必须 要 设计 数据 提取 和 操作 的 流程 ,然后 交 给 程序 员 来 实际 执行 。 这 是 一 个 缓慢 
而 繁 珊 的 过 程 ， 毕 竞 大 多 数 商 业 的 境况 都 是 瞬息 万 变 的 。 












































































































































因此 , 那些 严重 依赖 于 BI 的 企业 正在 利用 性 能 快照 , 尝试 理解 当前 情况 和 未 来 趋势 ,并 


对 此 做 出 反应 。 这 就 如 同 开车 的 时 候 只 采 着 后 视 镜 ,很 有 可 能 会 撞 上 什么 东西 。 现 在 对 于 企 














业 来 说 , 就 像 是 已 经 撞 到 了 一 堵 僵 化 的 墙 , 并 且 缺 乏 快 速 适应 变化 的 能 

















预测 分 析 确实 在 预见 方案 效果 方面 做 得 更 出 色 , 然而 , 将 数据 驱动 模型 和 优化 进行 整合 ， 
自动 创建 完善 的 解决 方案 , 才 是 LION 真正 的 强大 之 处 。 规 范 性 分 析 做 到 了 引领 我 们 直接 从 






































数据 到 最 佳 改 进 方案 ,以 及 从 数据 到 可 执行 的 洞察 力 ， 再 到 行动 本 身 ! 





1.5 LION 方法 的 实施 

















对 于 处 在 不 同业 务 状态 的 企业 而 言 , 全 面 采 用 LION 方法 作为 商业 实践 的 步骤 会 有 所 不 










































































围 的 整理 , 开销 会 非常 大 。 这 也 正 是 那些 老练 的 服务 提供 商 能 大 显 身 手 的 地 方 。 






































结构 化 或 半 结 构 化 数据 中 的 潜能 。 数 据 分 析 团 队 能 够 和 商业 终端 用 户 融 效 地 并 屑 合作 ， 

















[ri]. 更 重要 的 是 , 相关 数据 的 情况 也 会 影响 这 一 进程 。 显然 , 在 数据 收集 完成 的 时 候 引 进 LION 
范式 会 相对 容易 ， 开 销 也 更 少 。 对 某 些 企业 来 说 ， 由 于 遗留 系统 的 迁移 和 转换 需要 涉及 大 范 


除了 整理 和 定义 相关 数据 的 结构 之 外 , 最 重要 的 一 点 就 是 建立 起 数据 分 析 团 队 和 商业 终 
端 用 户 之 间 的 合作 。LION 方法 通过 自身 的 特性 提供 了 一 种 合作 方式 ， 助 其 共同 发 现 列 藏 在 





关键 


在 于 能 够 使 业务 目标 的 不 断 变化 迅速 反映 到 模型 上 。LION 方法 的 引入 可 以 帮助 数据 分 析 团 
队 在 价值 创造 链 中 产生 根本 性 的 变化 , 它 能 揭示 隐藏 的 商机 ,也 能 加 快 他 们 的 商业 伙伴 对 客 

















户 要 求 和 市 场 变化 的 反应 速度 。 











就 业 市 场 也 将 被 打 乱 。 从 人 类 的 实例 中 进行 学 习 的 软件 将 推导 出 我 们 在 使 用 却 又 不 明确 



































了 解 的 规则 。 这 将 消除 进一步 自动 化 的 障碍 , 在 许多 需要 适应 性 、 常 识 和 创造 性 的 任务 
器 将 会 代替 工人 ,也许 会 让 中 产 阶 级 处 在 风险 之 中 A, 












































FP, 机 


LION 方法 可 以 说 是 一 种 极 具 颠 覆 性 的 发 现 隐藏 价值 的 智能 方法 ， 它 能 快速 适应 改变 并 
改进 业务 。 通 过 恰当 的 规划 和 实施 , LION 技术 可 以 帮助 企业 在 竞争 中 独 领 风 孜 ,避免 被 烷 原 











之 火 灼伤 , 同时 也 可 以 帮助 个 人 在 高 技能 人 才 的 就 业 市 场 中 保持 莞 争 力 。 


1.6 “动手 ”的 方法 





16 “动手 ”的 方法 7 




















点 。 本 书 大 多 数 的 内 容 都 是 按照 从 实例 




















因为 这 是 一 本 关于 从 实例 中 进行 (机 器 ) 学 习 的 书 ,所 以 在 学 习 这 本 书 时 也 要 遵从 这 一 
学 习 和 从 实践 中 学 习 的 原则 来 安排 的 。 当 介绍 不 同 
的 技术 时 , 我 们 会 讨论 这 些 技术 的 基础 理论 , 然后 会 总 结 出 一 些 你 “应 该 了 解 的 梗概 ”。 本 书 























鼓励 用 现实 中 的 情况 来 做 实验 ,你 可 以 在 本 书 的 网 站 上 找到 相关 的 例子 和 软件 。 这 样 做 能 让 








你 体会 到 LION 技术 并 不 是 只 为 专家 准备 的 ; 它 属 于 任何 对 快速 且 
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第 一 次 阅读 本 书 时 你 可 以 跳 过 某 些 理论 部 分 。 但 是 某 些 理 





仅 能 帮助 开发 新 的 、 更 加 先进 的 LION 技术 ， 



































论 知 
还 能 使 你 更 加 得 心 应 手 地 使 








可 测量 的 结果 感 兴 趣 的 实 


识 是 十 分 关键 的 ， 它们 不 
用 这 些 技 术 。 掌 握 























一 些 基 础 的 、 未 被 稀释 的 理论 ， 就 像 在 陌生 国度 旅行 时 手中 有 地 图 指引 。 如 果 你 是 一 稻 不 知 





























要 驶 向 何 处 的 船 , 那么 风 往 哪 边 歇 都 是 无 意义 的 。 
我 们 会 尽量 兼顾 开发 人 员 和 终端 用 户 的 感受 。 

















EB. MR, X 




















分 类 不 同 。 











下 面 两 个 图 标 粗 略 地 表示 了 不 同 章节 的 难 




















因此 可 能 与 我 们 试验 性 的 级 别 





作 易 程度 的 真实 感受 跟 读者 的 知识 背景 有 关 ， 


进 阶 的 话题 


容易 的 话题 





本 书 作者 以 及 读者 群发 布 的 数据 、 指 导 说 明和 教学 短片 都 可 以 在 本 书 的 网 站 上 找到 : 
https://intelligent-optimization.org/LIONbook/。 








我 们 感谢 为 这 本 书 做 出 了 页 献 的 人 们 。 首先 是 照片 和 插画 。 Carlo Nicolini 提供 了 在 LION- 


4@VENICE 2010 会 议 期 间 拍 摄 的 威尼斯 照片 。 第 1 ARETE Domenico di Michelino 于 









































1465 年 在 佛罗伦萨 完成 的 。George Chernilevsky 提供 了 第 2 章 装 着 芯 菇 的 馆子 的 图 片 。 第 9 
































章 大 脑 图 

11 章 的 Vapnik 教授 的 照片 
储备 池 的 结构 图 

第 





片 。Hopfield 网 络 图 来 自 











ERIRE A 

















片 是 达 4547 (1452—1519) 的 作品 。 




















15 章 的 绘画 是 米 开 朗 基 罗 于 1541 年 完成 的 。 我 们 也 在 维基 
Gorayni， 能 级 相 图 由 Mrazvan22 提供 。 本 书 作者 和 作者 的 儿子 们 都 
是 维基 百科 条 目 积 极 的 撰写 者 。 第 14 章 章 首 Reschense 湖 的 照片 来 自 
André Karwath 提供 。 


最 后 ， 我 们 感谢 读者 为 提升 这 本 书 的 


聚 类 深度 网 络 
Yann LeCun 提供 。 超 限 学 习 机 


的 图 



































XA Geoffrey Hinton. $ 
片 来 自 Guangbin Huang. 








Herbert Jaeger 提供 。 第 13 章 的 威尼斯 绘画 由 卡 纳 莱 托 在 1730 年 完成 。 


百科 中 找到 了 一 些 解 释 性 的 图 








Markus Bernet。 第 10 








品质 所 做 的 越 来 越 多 的 贡献 。 他 们 包括 Patrizia 





Nardon Fred Glover. Alberto Todeschini, Yaser Abu-Mostafa、Marco Dallariva、 Enrico Sar- 
tori, Danilo Tomasoni, Nick Maravich, Drake Pruitt, Dinara Mukhlisullina、 Rohit Jain, Jon 
Lehto, George Hart. Markus Dreyer. Yuyi Wang 和 Gianluca Bortoli。 书 中 的 漫画 是 Marco 











Dianti 赠 予 我 们 的 礼物 。 我 们 十 分 乐意 与 读者 沟通 。 如 果 你 有 评论 、 建 议 或 者 勘误 ”， 请 给 我 
们 发 电子 邮件 , 我们 会 把 你 的 名 字 加 在 下 一 个 版 本 中 。 你 可 以 在 LIONIab 的 网 站 上 找到 联系 
方式 和 电子 邮件 地 址 : https://intelligent-optimization.org/。 
第 2 版 补遗 
现在 你 正在 读 的 是 本 书 的 第 2 版 : 我 们 在 此 感谢 许多 读者 发 送 的 更 正和 改进 建议 。 
电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电 子 版 。 




























































































Q@ 中 文 版 勘误 请 读者 到 图 灵 社 区 的 本 书页 面 提交 : http: //www.ituring.com.cn/book/1413. 一 一 编者 注 








自然 不 允许 跳跃 。 





如 果 你 还 记得 小 时 候 是 如 何 识字 的 , 那么 你 就 可 以 理解 什么 是 从 实例 中 学 习 ， 尤其 是 监 
督学 习 。 父母 和 老师 给 你 展示 一 些 带 有 英文 字母 a b c 等 等 ) 的 实例 , 然后 告诉 你 : 这 是 
a; XÆ b, 

当然 , 他 们 并 没有 用 数学 公式 或 者 精确 的 规律 来 描述 这 些 字 母 的 几何 形状 。 他 们 只 是 展 
示 了 一 些 不 同 风 格 、 不 同形 式 、 不 同 大 小 和 不 同 颜色 的 已 标记 的 实例 。 经 过 一 些 努 力 和 失误 
之 后 ,你 的 大 脑 就 能 够 正确 识别 这 些 实 例 了 。 然 而 这 不 是 关键 ， 因 为 仅 赁 记忆 你 其 实 就 能 够 
做 到 这 一 点 。 重 要 的 是 , 通过 这 些 实例 的 训练 ， 你 的 大 脑 还 能 从 中 提取 出 与 认 字 真正 相关 的 
模式 和 规律 ,过 滤 掉 不 相关 的 “噪声 ”( 比 如 颜色 )， 从 而 进行 泛 化 (generalize)， 以 识别 在 训 
练 阶段 从 未 见 过 的 新 实例 。 这 是 很 自然 的 结果 ， 但 确实 是 值得 注意 的 成 果 。 取 得 这 一 成 果 不 
需要 什么 先进 的 理论 ， 也 不 需要 博士 学 位 。 如 果 有 一 种 方法 也 能 如 此 自然 而 又 轻松 地 解决 商 
业 问 题 ， 是 不 是 很 令 人 振奋 呢 ? 结合 了 从 数据 中 学 习 和 优化 的 LION 范式 就 是 这 样 的 一 种 方 
法 , 我 们 将 从 这 一 熟悉 的 语 境 开始 。 
在 监督 学 习 中 , 由 监督 者 (老师 ) 给 出 一 些 已 标记 的 实例 , 系统 根据 这 些 已 标记 的 实例 来 
完成 训练 。 每 一 个 实例 是 一 个 数列 , 它 包括 一 个 作为 输入 参数 的 向 量 x, 称 为 特征 (feature)， 
和 与 之 相对 应 的 输出 标记 y。 











































































































































































































ASE ETE A TT AR BY LAR, aE OE ET oh 
然 采 蘑菇 很 受 欢 迎 也 很 有 趣 ,， 但 是 误 食 有 毒 的 蘑菇 将 造成 致命 的 危害 〈 见 图 2-1)。 这 里 的 小 
孩子 在 很 小 的 时 候 就 学 会 了 如 何 区 分 可 以 食用 的 和 有 毒 的 蘑菇 。 到 这 里 来 的 游客 可 以 买 到 相 
关 的 书籍 , 书 中 有 这 两 类 蘑菇 的 图 片 和 特征 ; 他 们 也 可 以 把 采 到 的 蘑菇 带 到 当地 的 警察 局 , 让 
专家 帮 他 们 免费 检验 这 些 蘑 菇 。 














































































































图 2-1 采 世 菇 要 区 分 可 以 食用 的 和 有 毒 的 























这 里 有 一 个 被 简化 过 的 例子 , 如 图 2-2 所 示 , 假设 我 们 用 两 个 参数 ， 比 如 高 度 和 宽度 , 就 
能 够 区 分 这 两 种 蘑菇 。 当 然 ， 一 般 来 说 , 我 们 需要 考虑 更 多 的 输入 参数 , 像 颜 色 、 形 状 、 气 味 
T, 其 至 是 更 加 令 人 困惑 的 正 类 (可 以 食用 的 ) 和 负 类 实例 的 概率 分 布 。 


可 以 食用 的 蘑菇 


aî 有 毒 的 蘑菇 
A 4 p > igi 
A © © 












































| 人 a s = 
|a A ,A © © 
A 4 © 
a* ah © 
aá A © © 
A 
> 
高 度 

















图 2-2 简化 的 例子 : 两 个 特征 (宽度 和 高 度 ) 用 以 区 分 可 以 食用 的 和 有 毒 的 蘑菇 





























那些 懒惰 的 初学 者 在 采 蘑 菇 的 时 候 遵循 简单 的 模式 。 通 常 他 们 在 采摘 蘑菇 之 前 没有 学 习 
竹 何 相关 的 知识 ， 毕竟 ,他 们 到 特 伦 蒂 诺 是 来 度假 的 ， 而 不 是 来 工作 的 。 当 发 现 一 个 蘑菇 时 ， 




















一 、 





最 近 领 方法 11 








他 们 会 在 书 中 寻找 相似 的 图 
中 懒惰 的 




















oo E 


Hy 























许 跳跃 ”的 拉丁 文 ) 原则 来 解释 它 。 











你 


各 项 特征 非常 相似 , 那么 你 也 许 会 认为 





片 ,然后 仔细 检查 对 照 细节 列表 中 的 相似 特征 。 这 就 是 机 器 学 习 
近邻 ”Cnearest neighbor) 算法 在 实际 问题 中 的 一 次 应 用 。 

为 什么 这 样 一 种 简单 的 方法 是 有 效 的 呢 ? 我 们 可 以 用 Natura non facit saltus (“ 
自然 的 事物 与 特征 常常 是 逐渐 改变 ,而 不 
如 果 你 将 书 中 的 一 个 可 食用 的 蘑菇 作为 原型 ， 然 后 发 现 你 
的 蘑菇 是 可 以 食 





日 然 不 允 
自己 采摘 的 蘑菇 与 这 个 原型 蘑菇 的 
用 的 。 




















声明 : 不 要 使 用 这 个 简单 的 例子 来 





区 分 真正 的 蘑 











忆 为 每 一 种 分 类 器 都 有 一 定 的 概率 





出 错 ， 另 外 蕊 菇 分 类 中 的 假 正 类 (把 有 毒 的 蘑菇 当成 














损害 


ET o 





最 近邻 方法 














用 的 ) 将 会 对 你 的 健康 造成 极 大 的 











在 机 器 学 习 领域 , 最 近邻 方法 的 基本 形式 与 基于 实例 的 学 习 、 基 于 案例 的 学 习 和 基于 记 


忆 的 学 习 有 关 。 它 的 工作 原理 如 下 : 我 们 把 已 标记 的 实例 (包括 输入 及 相应 的 输出 的 标记 ) 储 


























存 起 来 ,不 进行 任何 操作 ， 直 














到 一 个 新 输入 模式 需要 一 个 输出 。 这 种 系统 被 称 为 懒惰 的 学 习 





者 : 它们 只 是 将 这 些 实例 储存 起 来 , 其 他 的 什么 也 不 做 , 直到 用 户 询问 它们 。 当 一 个 新 输入 模 





























式 到 达 时 , 我 们 在 存储 器 中 查找 到 与 这 个 新 模式 相近 的 那些 实例 ,输出 则 由 这 些 相 近 模 式 的 








输出 所 决定 , 见 图 




















泛 地 用 于 分 类 问题 和 回归 问题 。 
y 
A a4 
了 = sa 
A 全 二 o 
4 i “4 o © 
A A A © ® 
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aô A > 
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图 2-3 ”最 近邻 分 类 : 一 个 清晰 的 情形 ( 左 )， 
































2-3。 一 百 多 年 来 , 这 种 数据 挖掘 的 形式 仍然 被 统计 学 家 和 机 器 学 习 专 家 广 





av 








WAKE 
有 问号 的 查询 点 的 最 近 的 邻居 属于 负 类 , 但 它 的 更 多 近邻 属于 正 类 


晰 的 情形 〈 右 )。 在 第 二 种 情形 中 , 标 


















































简单 点 说 ， 一 个 新 输入 对 应 的 输出 就 是 存 
斯 一 个 新 遇见 的 蘑 妇 是 否 可 以 食 

















if at A 








虽然 十 分 简单 , 但 很 多 情况 下 这 种 技术 都 








相距 最 近 的 那个 实例 的 输出 。 如 果 要 判 


用， 我 们 就 把 它 归 到 记忆 中 与 之 最 相似 的 蘑菇 的 那 一 类 。 
8 奇 地 有 效 。 然 而 它 毕 葛 是 一 种 偷懒 的 方法 , 要 
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为 懒惰 付出 代价 ! 不 笠 的 是 ,为 识别 











新 实例 所 花费 的 时 间 可 能 与 存储 器 中 的 实例 数量 成 














正比 , 除非 月 
问题 时 才 去 读 这 些 





Bo 











一 个 更 具 健 壮 性 和 灵活 性 的 方法 是 考虑 大 小 为 ABER TM AMM A AEA 
到 这 种 方法 被 称 为 K 近 
上 可 以 用 多 数 同意 规则 ， 即 输 
出 。 如 果 想 要 更 加 安全 的 方法 , PER k MERK 
一致 同 意 规则 )， 否 则 就 输出 “未 知 ”。 这 个 建议 可 以 





个 ,不 难 
TIE. Pi 
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如 ,新 实例 的 输 








= 








知 ” 就 联系 当地 警方 寻求 帮助 。 
如 果 面 临 的 是 


RE 




















日 不 那么 偷懒 的 方法 。 这 就 好 比 有 





个 学 
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SE CKNN) 方法 。 


ká 


mo 
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Æ, BAY 


的 灵活 性 来 源 于 可 以 
HIX k MPH 


A 
an 


mi 


ZN 
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常 买 了 不 少 书 , 但 是 只 在 遇 到 

















一- 
使 用 不 同 的 分 类 
占 大 多 数 的 那 一 个 输 
8 完全 相同 时 才 确 定 新 实例 的 类 别 














mj 









































个 回归 问题 (预测 一 个 实数 , 例如 蘑菇 9 





这 个 最 相近 的 实例 的 输 


HP 


作为 新 实例 的 输出 。 














当然 ,这 个 实例 到 新 实例 








HEKSA REKE: URH 





H “XR 


PF 有 毒物 质 的 含量 ), 我 们 可 以 将 











的 距离 可 能 有 所 差别 ,而 且 在 某 些 











情 





况 下 , 距离 较 近 的 实例 








对 新 实例 的 输出 影响 更 大 是 很 合理 的 。 在 这 种 被 称 为 加 权 K 近邻 《WKNN) 的 方法 中 , 权重 


















































取决 于 距离 。 
设 给 定 的 正 整 数 < 4 (4 为 已 标记 实例 的 个 数 )，z 表示 新 的 实例 ,是 一 个 属性 向 量 。 
下 面 是 一 个 用 于 估计 w 所 对 应 的 输出 y 的 简单 算法 ， 分 两 个 步骤。 
(1) 在 训练 集中 找到 k 个 下 标 a ,i 使得 属性 向 量 za … ,zix 与 给 定 的 > 最 相近 














《根据 茶 种 给 定 的 属性 空间 度量 )。 











(2) 通过 下 面 的 加 权 平 均 来 计算 估计 的 输 






































k 
Yi; 
7 2 d(x;, ,@) + do 
工商 
1 
2 d(x, ,@) + do 
其 中 d(x; x) 指 两 个 向 量 在 属性 空间 中 的 距离 CK EE 
以 避免 出 现 0 作为 除数 的 情况 。do RK, E 
K, 那么 这 上 大 个 实例 的 权重 就 几乎 一 样 了 。 











Hy ACHE EFE H 








向 量 之 间 的 距离 : 





(2.1) 














E 离 较 远 的 点 的 贡献 就 越 大 。 如 果 do 趋 


E 离 ), do 是 一 个 小 的 偏 移 常数 , 用 
近 于 无 穷 


























WENN 算法 很 容易 实现 , 并 且 相应 的 估计 误差 也 很 小 。 它 的 主要 缺点 是 需要 大 量 的 内 存 








空间 ， 以 及 在 测试 阶段 巨大 的 计算 
需 的 内 存 空间 。 聚 类 方法 按照 相似 
(H 











本 书 接 下 来 将 继续 考虑 新 实例 和 内 存 中 实例 之 间 的 距离 ， 
法 与 局 部 加 权 回 归 就 可 看 作 最 近邻 方法 的 一 般 化 ,这 两 种 方法 并 
排除 ,而 是 根据 它们 到 查询 点 的 距离 , 灵活 地 赋予 它们 相应 的 习 











向 量 ” 





© feature vector 若 译 为 “特征 


= 
FEL o 


i 











因此 我 们 常常 将 已 标记 的 实 
FE 将 它们 划分 成 一 个 个 小 组 ， 
HD). 第 15 章 会 讨论 更 多 的 细节 。 


BRK 


列 进行 聚 类 ， 用 来 减少 所 
并且 只 存储 每 个 小 组 的 原型 












































并 且 将 这 一 想法 一 般 化 。 核 方 























不 是 粗鲁 地 直接 将 远 处 的 点 
ERE OUE). 

















» WIRUN eigen vector， 因 此 译作 “属性 





向 量 ”。 一 一 译 者 注 














EO M 


KNN (K 近邻 ) 是 一 种 原始 的 懒惰 的 机 器 学 习 方式 : 它 只 是 把 所 有 的 训练 实例 存在 存 


储 器 中 《输入 和 对 应 的 输出 标记 )。 





当 有 一 个 新 输入 并 需要 计算 其 对 应 的 输出 时 , 在 存储 费 中 查找 个 最 接近 的 实例 。 读 
取 它们 的 输出 , 并 根据 它们 的 大 多 数 或 平均 值 推 导出 新 实例 的 输出 。 当 存储 了 非常 多 的 实 











例 时 , 训练 阶段 的 懒惰 会 让 预测 阶段 的 响应 时 间 变 得 很 长 。 
相似 的 输入 经 常 对 应 着 相似 的 输出 ， 这 是 机 器 学 习 领 域 的 一 个 基本 假设 ， 因 











方法 在 很 多 实际 案例 中 都 有 效 。 它 与 人 类 的 某 些 “基于 案例 ”的 推理 具有 相似 性 。 虽 然 这 


个 方法 简单 粗暴 ,但 它 在 很 多 现实 案例 中 的 效果 都 令 人 惊奇 。 


从 现在 起 , 不 要 做 一 个 懒惰 的 学 习 者 ， 别 以 为 这 样 可 以 高 枕 无 忧 。 继 续 读 下 面 的 章节 ， 


坚持 学 下 去 。 早 起 的 乌 儿 有 虫 吃 ， 睡 懒 觉 具 能 肚子 空空 了 。 




















此 KNN 








GE 


学 习 需 要 方法 


数据 挖 据 ， 名 词 ， 对 数据 进行 的 严刑 逼供 
如 果 找 打 得 足够 久 ,， 它 会 向 你 坦白 任何 事情 。 





无 论 是 对 于 人 类 ,还 是 对 于 机 器 来 说 ,学习 都 是 一 种 强大 却 又 微妙 的 能 力 。 真 正 的 学 习 
涉及 如 何 从 一 个 现象 中 提取 深层 次 的 、 基 础 的 关系 ,如何 简 要 地 概括 各 种 不 同 的 事件 所 遵循 
的 规律 ,以 及 如 何 通 过 发 现 基本 的 定律 来 统一 解释 不 同 的 情况 。 

最 重要 的 是 , 我 们 真正 的 目标 是 能 够 泛 化 的 模型 , 以 及 模型 对 新 实例 的 解释 能 力 , 新 实例 
是 指 与 训练 实例 来 自 同 一 个 应 用 领域 , 但 在 学 习 阶段 没有 过 见 过 的 实例 ,而 从 实例 中 学 习 仅 
仅 是 走向 这 一 终点 的 途径 之 一 。 与 此 相反 , 死记 人 硬 背 常常 被 认为 是 非常 低 效 的 学 习 方式 , 它 虽 
然 对 初学 者 有 一 定 的 作用 , 但 是 无 法 使 你 成 为 真正 的 专家 。 如 果 目 标 是 泛 化 ,那么 模型 在 学 


























习 集 上 的 表现 并 不 能 保证 泛 化 是 正确 的 




















is 











， 还 可 能 导致 我 们 对 结果 过 于 乐观 ， 因 此 要 极其 谨慎 


地 估计 这 个 模型 的 性 能 。 归 根 结 底 ， 只 擅 于 死记 硬 背 的 学 生日 后 在 生活 中 未 必 能 取得 个 人 的 


成 功 。 


我 们 需要 定义 机 器 学 习 《〈 简 称 为 ML) 的 上 下 文 , 让 














I 





能 够 全 力 发 挥 , 又 不 会 因 使 用 不 当 


或 过 于 乐观 而 造成 损害 。 另 外 ,使 用 ML 并 不 意味 着 就 不 需要 使 用 我 们 的 头脑 了 。 
事实 上 , 开始 机 器 学 习 流程 之 前 ,， 用户 会 根据 直觉 和 智能 在 原始 数据 中 提取 一 个 具有 代 




















表 性 的 子 集 , 这 一 步 是 非常 有 用 的 。 特 生 




















E (或 属性 ) 是 观察 到 的 现象 的 各 个 可 度量 的 性 质 , 这 











些 性 质 包 含 了 与 输出 有 关 的 有 用 的 信息 。 这 一 准备 阶段 称 为 特征 选择 〈 选 出 一 个 集 )， 以 及 特 














征 提取 《〈 生 成 一 个 组 合 ， 见 图 3-1). 
原始 数据 





图 3-1 监督 的 学 习 体 系 : 特征 提取 和 分 类 

















举例 来 说 , 字母 和 数字 的 图 像 可 以 作为 输入 , 输出 则 是 与 图 像 对 应 的 字母 或 数字 符号 。 与 
此 相关 的 应 用 包括 邮政 编码 的 自动 读 取 、 旧 书页 图 片 自动 转换 为 相应 文本 内 容 等 ， 这 些 被 称 
为 光学 字符 识别 。 直 觉 告 诉 我 们 ， 图 片 的 绝对 亮度 不 是 一 个 能 提供 信息 的 属性 〈 无 论 亮 度 如 












































何 , 数字 都 保持 不 变 )。 在 这 种 情况 下 , 合适 的 属性 可 能 与 图 像 中 的 边缘 或 灰 度 直方 图 等 有 























一 些 更 为 复杂 的 技术 尝试 确保 那些 经 过 平移 和 放大 的 图 像 也 能 被 正确 识别 , 例如 在 提取 特征 
































He 


的 时 候 参考 图 像 的 重心 〈 将 一 个 像素 的 灰 度 值 当 作 那 个 点 的 质量 )， 或 者 将 图 像 进行 伸缩 , 使 
得 黑色 部 分 面积 尽 可 能 大 ,等 等 。 提 取 有 用 的 特征 通常 需要 对 该 问题 的 专注 、 见 解 和 知识 储 
备 ， 这 样 做 将 大 大 简化 接 下 来 的 自动 学 习 阶 段 。 这 就 好 比 一 位 学 识 渊博 的 教授 为 他 所 擅长 的 












































门 课 精心 准备 教材 。 











考虑 4 元 组 (元 素 的 有 序列 表 ) 的 训练 集 , 其 中 每 一 个 元 组 是 形 如 (wi, yi), i= 1,--- 2 的 
有 序 对 ，z; 是 一 个 d 维 空间 里 (xz; EC RO 的 输入 参数 向 量 数列 )， y 是 测量 到 的 输出 ， 即 












































(regression); 当 vy; 在 一 个 有 限 集 里 取 值 时 , 为 分 类 问题 (classification)。 








算法 要 学 习 的 部 分 。 如 前 所 述 , 我 们 将 会 考虑 两 类 问题 当 y; 可 以 取 实 数值 时 ， 为 回归 问题 


分 类 问题 (识别 以 特征 x 描述 的 某 一 特定 目标 的 类 别 ) 中 , 输出 是 类 别 的 相应 编码 。 输 
出 y 属于 一 个 有 限 集 , 例如 ys = +1, 或 者 yi € {1,… N} 例如， 可 以 将 芯 菇 分 为 两 类 : 可 




















食用 的 和 有 毒 的 。 














回归 问题 的 输出 从 一 开始 就 是 一 个 实数 值 , 它 的 目标 是 通过 建 模 研究 因 变 量 (输出 值 y) 
与 一 个 或 多 个 自 变 量 (输入 值 e) 之 间 的 关系 。 例 如 ， 根 据 蘑 区 的 特征 来 预测 其 有 毒物 质 的 
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tat 











在 某 些 情况 下 ， 分 类 很 难 始终 保持 清晰 ， 因 为 不 同类 别 之 间 的 界线 可 能 是 模糊 的 。 试 想 
如 何 区 分 秃顶 的 人 和 有 头发 的 人 ? 二 者 之 间 并 不 存在 明确 的 界线 ， 正 如 为 掉头 发 而 焦虑 的 人 



































和 卖 防 脱发 产品 的 人 所 知 的 那样 。 


这 种 情况 下 , “清晰 的 ”分 类 问题 很 自然 地 转换 成 回归 问题 。 为 了 并 慎 起 见 , 输出 可 以 是 
0~1 的 实数 值 。 对 于 给 定 的 输入 值 , 我 们 可 以 认为 这 个 输出 值 是 某 个 给 定 类 别 的 后 验 概率 ; 如 
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果 不 能 以 概率 来 解释 的 话 ， 也 可 以 当 作 模 糊 隶 属 度 。 举 
说 他 有 头发 的 概率 是 0.2 并 没什么 意义 ， 这 利 














人 可 能 更 合适 。 当 实验 的 输出 数据 不 
以 连续 值 作为 输 




















> Ate > 
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定 但 可 重复 时 , 使 
Hy (GH 0~1, 可 以 增加 分 类 系统 在 实际 使 用 中 的 灵活 性 。 还 可 以 通过 设 
定 阔 值 ， 判 断 是 由 人 还 是 由 更 复杂 的 系统 来 帮助 解决 一 些 令 人 迷惑 的 案例 〈 例 如 案例 的 输出 
WE 0.4~0.6 的 范围 内 )。 简 单 明了 的 案例 由 系统 自动 处 理 ， 

















列 来 说 ， 如 果 有 个 人 只 有 几 根 头发 了 ， 
情况 下 说 他 以 0.2 这 个 值 模糊 隶属 于 有 头发 的 

































































FoR YS A 


用 概率 是 合适 的 。 





























人 来 处 理 。 




















在 光学 字符 识别 中 , 比如 有 一 个 图 像 , 它 可 能 是 数字 0 CE), 也 可 能 是 字母 0( 束 像 单词 Old 








中 的 那个 )， 系统 最 好 告诉 我 们 每 种 情况 都 有 50% 





然 , 接 下 来 还 可 以 使 月 




















3.1 ”从 已 标记 的 案例 中 学 习 : 最 小 化 和 泛 化 


监督 学 习 方法 使 
选 自 一 个 灵活 的 模型 fa;ao)， 其 中 的 灵活 人 

为 了 能 有 具体 的 印象 ,想象 一 台 将 输入 转化 为 输 
节 它 。 或 者 想象 一 个 等 竺 输入 的 “多 功能 盒子 ”, 它 能 根据 内 部 参数 的 影响 产生 输出 。 HE 
息 取 自给 定 的 训练 实例 集 。ML 的 神奇 之 处 在 于 ,这 些 齿 轮 的 调节 不 是 手 








定义 ”这 个 盒子 的 信 ， 





























动 完 成 的 ， 而 是 自动 通过 1] 
图 3-1 展示 了 该 架构 的 一 种 
优 权重 的 确定 。 





























E 确 的 输入 - 输 


用 实例 构造 一 个 函数 y = f(z), 将 输入 x 和 输出 y 关联 起 来 。 这 一 关联 
来 自 可 调整 的 参数 ( 即 权 重 系数 ) w。 
的 绞 肉 机 ， 可 以 通过 齿轮 与 杠杆 来 调 














方案 , 其 中 


8 对 的 示例 来 进行 优化 。 








在 许多 情况 下 ， 











aE 





特征 提取 


而 女 


的 可 能 性 ， 而 不 是 强行 做 一 个 便 分 类 。 当 
这 个 字符 的 邻近 字符 或 语义 信息 来 进一步 分 辨 。 
































区 别 了 两 个 部 分 , 即 特 征 提取 , 以 及 分 类 器 内 部 最 
些 来 自 人 类 的 洞 见 ， 然 而 最 优 参数 的 确定 则 





是 完全 自动 的 , 这 也 是 这 一 方法 被 称 为 机 器 学 习 的 原因 。 让 模型 对 训练 集中 的 实例 进行 正确 


的 分 析 ， 从 而 确定 那些 自 
认为 优化 具有 











并 通过 合适 的 








是 一 个 绝对 值 





例 的 标记 得 出 ) 与 模型 输出 ( 
， 并 经 常 取 其 平方 值 。 














参数 。 


























(自动 化 的 ) 
























































模型 在 这 些 实 


监督 学 习 








关心 最 终结 果 ， 你 可 以 把 优化 部 分 当 作 多 功能 盒子 | 




















输入 这 个 盒子 后 ， 按 下 这 个 按钮 ， 它 会 

















如 果 你 有 





兴趣 3 
们 的 要 领 是 , 如 果 函 数 是 光滑 的 (想象 一 下 宜人 的 草木 

















强大 力量 的 真正 信徒 会 先 从 定义 误差 度量 (error measure) 最 小 化 开始 ”， 
天 化 过 程 来 确定 最 优 参 数 。 这 里 的 误差 度量 指 所 有 正确 答案 (由 实 


















































这 个 多 功能 盒子 的 输出 得 出 ) 之 间 误 差 的 总 和 。 通常 这 个 误差 
“误差 平方 和 ”可 能 是 机 器 学 习 领 域 应 用 最 为 广泛 的 一 种 
误差 度量 。 如果 误差 为 零 , 表明 这 一 模型 在 给 定 的 实例 上 能 百分之百 地 正确 工作 。 误差 越 小 ， 
侈 上 的 平均 表现 就 越 好 。 

因此 变 成 了 最 小 化 某 个 特定 的 误差 函数 , 这 一 误差 函数 依赖 于 参数 w WRR 
上 的 红色 大 按钮 ， 当 你 将 已 标记 的 实例 集 
































就 某 个 具体 问题 提供 自 定义 的 结果 。 
开发 新 的 LION TH, 接 下 来 的 章节 将 为 你 呈现 优化 技术 的 更 多 细节 。 它 
FE 访 的 加 州 群 山 ), 人 们 可 以 蒙 住 眼睛 ， 





© 把 要 优化 的 函数 乘 以 (一 1), 就 可 以 将 最 小 变 为 最 大 。 这 就 是 为 什么 经 常 谈论 “最 优化 ”时 通常 不 会 谈 及 特定 方 问 





的 最 大 或 最 小 的 原 








A] 





3.1 从 已 标记 的 案例 中 学 习 : 最 小 化 和 泛 化 ”17 





像 跳伞 那 样 找 到 一 个 随机 初始 点 ， 然 后 用 脚 来 感觉 周围 的 地 势 ， 











移动 , ROPER ATR BIR ARAYA 
这 些 湖泊 ,只 能 每 次 抽样 一 个 点 。 通 过 习 


















































SHE COWIE 
E 复 两 个 步 又 , 在 当前 点 的 邻 域 进行 




















并 总 是 向 着 最 速 下 降 的 方向 
L 备 “人 类 视觉 ”来 “看 到 ” 














样 一 一 在 ww T 











间 中 一 一 并 移动 到 误差 更 小 的 邻居 , 可 以 生成 一 个 值 越 来 越 小 的 轨迹 。 神奇 的 是 , 对 许多 应 用 








而 言 , 这 个 简单 的 过 程 足以 达到 适当 的 w* 值 。 

现在 用 数学 的 语言 来 表述 。 如 果 需 要 优化 的 函 
度 下 降 (gradient descent)。 人 们 可 以 村 
的 方向 移动 一 小 步 。 
(backpropagation) 的 学 习 | 
函数 是 平滑 的 ， 这 一 假设 并 非 凭 空 捏造 ，} 











4 
H 
































115, 116, 92] 


























FIXA PR TAME 





EE 复 地 计 


























个 简单 的 方法 是 使 用 梯 
的 梯度 ， 并 朝 着 负 梯 度 
实 上 ， 这 是 神经 网 络 里 很 流行 的 一 种 技术 ， 称 为 基于 误差 反 向 传播 

















[是 基于 监督 学 习 的 一 个 基础 的 平滑 假设 : 若 


T 


两 个 输入 zl 和 zs 距离 很 近 ”, 则 它们 对 应 的 输出 yy 和 yo 应 该 也 很 相近 。 如 果 这 一 假设 不 





R, 那么 就 不 可 能 将 有 限 训练 集 泛 化 至 
到 ， 人 们 大 脑 中 的 信号 和 相互 作用 的 物理 
交互 可 看 作 神 经 元 的 输入 , 神经 元 的 活动 〈 输 | 
认为 机 器 学 习 等 同 于 对 训练 集 上 前 














到 现在 , 你 可 能 会 
个 部 件 。 误差 函数 的 最 小 化 是 首要 的 关键 因 















































A 





1 可 能 无 限 多 的 尚未 见 过 的 新 测试 案例 上 。 可 以 注意 
现实 都 满足 这 一 平滑 假设 。 树 突 中 的 化 学 和 电信 号 
H) 平滑 地 依赖 这 些 输入 , 并 依次 作出 反应 。 

性 能 度量 的 优化 , 但 还 缺失 了 一 
素 , 但 并 不 是 唯一 的 。 如 果 模 型 复杂 度 〈 灵 活性 、 





























需要 调整 的 参数 个 数 ) 极 高 ， 模 型 在 训练 实例 上 达到 零 误 差 是 非常 容易 的 ,但 若 将 这 个 模型 











用 于 预测 新 实例 的 输出 ， 则 4 
抓 住 真 正 的 规律 , 学 生 将 很 





民 可 能 会 一 塌 糊 涂 。 月 














月 人 类 的 学 习 来 打 比方 ， 如果 死 记 便 背 却 未 
攻 做 到 举一反三 。 这 与 偏差 -方差 (bias-variance) 困境 有 关 , CH 








求 我 们 在 选择 模型 的 时 候 倍加 小 心 , 或 者 将 目标 函数 最 小 化 ， 改 为 训练 实例 误差 与 模型 复杂 





度 的 加 权 组 合 。 








偏差 -方差 困境 可 表述 如 下 。 


。 参 数 过 少 的 模型 会 因 较 大 的 偏差 而 失 准 : 它们 缺乏 灵活 性 。 
。 参数 过 多 的 模型 则 会 因 较 大 的 方差 而 失 准 : 

















的 改变 将 会 使 模型 产生 大 的 变化 )。 


。 找 到 最 佳 模 型 需要 控制 “模型 复杂 度 ” 即 模 型 的 结 











在 偏差 和 方差 之 间 达 成 折 中 方案 。 











避免 过 于 复杂 


的 模型 ， 而 优先 选用 简单 的 模型 ， 这 种 1 














Ay 意 指 “ 刹 去 ” 理 


论 

















中 那些 不 必要 的 复杂 们 









































于 样本 中 的 细节 过 于 敏感 (细节 中 
构 和 参数 数量 都 要 恰到好处 ， 从 而 


入 好 有 一 个 有 趣 的 名 字 : AFA] 








EO. 优化 仍 在 使 




















wal, 误差 度量 需要 进行 整合 。 











需要 更 有 针对 性 的 度量 方法 。 





© 有 些 情况 下 可 以 测量 zl 和 aco 之 间 的 标准 欧 几 有 


© 奥 卡 姆 剃刀 归功 于 14 世纪 的 神学 家 和 方 济 会 修士 奥 卡 姆 的 威廉 , 他 
multiplicanda praeter necessitatem)。” 引用 艾 萨 “牛顿 的 解释 :我们 要 承认 , 无 须 


确 并 充分 地 解释 事物 的 表现 就 够 了 。 因 此 , 对 于 相同 的 自然 现象 ,我 们 尽 可 能 给 出 相同 藤 





















































于 顾及 模型 的 复杂 度 问 





[无 必要 , 勿 增 实体 (entia non sunt 
为 自然 事物 寻找 更 多 的 原因 , 能 正 
原因 。” 
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区 分 监督 分 类 的 两 类 方法 也 是 有 意义 的 。 第 一 类 热衷 于 得 到 某 个 关于 输入 是 如 何 产生 输 


出 的 “构造 性 的 模型 ; 第 二 类 更 在 意 结果 , 即 获得 正 























后 者 则 单纯 地 在 意 其 性 能 。 
































的 分 类 。 前 者 关心 对 内 在 机 制 的 解释 ， 








第 一 类 情况 下 , 生成 方法 (generative method) 尝试 在 实例 中 建 模 , 为 不 同 的 类 型 y 生成 
实测 数据 xz 的 过 程 进行 建 模 。 给 定 某 个 类 ,比如 有 毒 的 蘑菇 , 它 具 有 某 种 外 形 的 概率 是 多 少 ? 







































































用 数学 的 术语 来 说 , 学 习 到 的 是 一 个 类 条 件 概率 密度 p(xz|y), 即 在 给 定 y 的 情况 下 z 的 概率 。 



































WA, 在 给 定 一 个 新 测量 x 时 , 根据 贝 叶 斯 定理 ,分 类 y 可 以 通过 最 大 化 后 验 概 率 得 到 : 


ptylz) = 
3 


是 先 验 概率 ， 月 








其 中 p(aly) 称 为 数据 的 似 然 性 ，p(y) 
分 母 中 的 项 就 是 普通 的 规范 化 条 件 
TR: 后 验 = 先 验 X 似 然 性 。 








p(xIYy)p(Y) 

Pally) 
日 以 反映 在 测量 之 前 各 种 结果 的 可 能 性 。 
， 使 得 概率 之 和 为 1。 有 个 用 于 帮助 记忆 贝 叶 斯 定理 的 





(3.1) 


















































判别 算法 (discriminative algorithm) 就 不 会 尝试 建 模 数 据 的 生成 过 程 ， 它 们 直接 估计 














p(y|z)， 这 个 问题 在 茶 些 情况 下 比 之 前 生成 方法 的 两 步 过 程 (首先 建 模 p(zjy)， 然 后 才 导 出 
































pliye 要 更 简单 。 判 别 型 方法 的 例子 包括 多 层 感知 器 神经 网 络 , 以 及 支持 向 量 机 (SVM) F, 


接 下 来 的 章节 里 将 会 讨论 。 























判别 算法 所 示 的 捷径 具有 深远 意义 , 我 们 不 必 知 道 某 些 类 别 如 何 产 生 输 入 实例 ， 也 不 必 


为 此 建立 一 个 详尽 的 模型 , 就 可 以 构造 精确 的 分 类 器 。 想 要 不 月 
不 需要 成 为 真菌 学 家 , 你 只 需 要 大 量 有 代表 改 
认识 到 不 需要 成 为 某 个 领域 的 专家 就 可 以 做 日 



































ET 着 生命 危险 去 采摘 蘑菇 , 并 

















En aE BIE, 并 且 它 们 已 经 正确 地 分 好 了 类 。 
贡献 ， 这 是 个 人 的 一 小 步 ,， 却 是 LION 发 











展 道路 上 的 一 大 步 。 不 用 说 , 成 功 的 企业 用 朴实 低调 而 又 功能 强大 的 数据 驱动 和 优化 驱动 的 





















































3.2 ”学 习 、 验 证、 测试 











基于 已 标记 实例 的 学 习 要 求 我 们 采用 细致 的 实验 程序 来 测量 学 习 过 程 的 效果 。 尤其 注意 ， 














不 能 将 已 经 用 于 训练 的 实例 再 用 于 测试 学 习 系 统 的 性 能 ， 如 果 这 么 做 , 将 是 一 个 可 耻 且 无 法 




















原 该 的 错误 。 机 器 学 习 的 目标 是 获得 一 个 



































上 有 泛 化 能 力 的 系统 , 用 以 分 析 新 的 或 以 往 未 见 过 





的 数据 ; 否则 , 这 个 系统 就 不 是 在 学 习 , 而 只 是 记 住 了 一 些 已 经 知道 的 模式 , 这 也 是 学 校 不 停 


更 换 考试 题 的 原因 

















假设 有 一 个 能 从 给 定 的 概率 分 布 中 生成 标记 实例 的 监督 者 (一 个 软件 程序 或 实验 过 程 )。 


在 训练 阶段 ， 我 们 最 好 向 监督 者 索要 一 些 实 

















情况 下 ， 














例 ， 在 测试 性 能 阶段 再 索要 一 些 新 的 实例 。 理 想 









































用 于 训练 的 实例 数量 应 足以 确保 收敛 , 并 且 用 于 测试 的 实例 数量 也 应 该 足以 保证 这 











个 估计 具有 统计 学 意义 。 如 果 一 个 用 于 区 分 
个 蘑菇 , 那么 我 们 强烈 建议 你 不 要 认为 这 个 系统 是 









































可 食用 蘑菇 和 毒 蘑菇 的 机 器 学 习 系 统 只 测试 了 7 
可 用 的 。 


3.2 FA. 验证、 测试 19 





然而 现实 可 能 与 理想 相差 其 远 。 一 些 情况 下 ， 训 练 集 是 相当 小 的 ， 并 上 有 
它们 能 同时 满足 训练 和 性 能 测试 的 要 求 。 这 种 情况 下 ,实例 集 必须 清楚 地 分 为 训练 集 和 验证 
E, 前 者 用 来 训练 , 后 者 用 来 测试 性 能 , 如 图 3-2 所 示 。 一 个 典型 的 性 能 测试 是 系统 输出 与 监 
































































































































pes = (State 
4 








训练 集 








3-2 ”标记 的 实例 必须 分 为 训练 集 、 验 证 集 和 测试 集 





般 而 言 ,学习 过 程 通过 优化 模型 参数 以 使 得 模型 尽 可 能 好 地 拟 合 训练 数据 的 输出 。 那 
样 的 话 ， 如 果 我 们 从 验证 数据 的 同一 个 总 体 中 取 一 个 独立 的 抽样 作为 训练 数据 ， 一 般 会 导致 
验证 数据 集 的 误差 大 于 训练 数据 集 的 误差 。 如 果 训 练 过 度 的 话 , 这 种 差异 很 可 能 会 变 得 非常 














下 式 给 出 : 





| 需要 尽 可 能 保证 

















督 者 给 出 的 正确 输出 之 间 的 均 方 根 (root mean square, RMS) 误差 。 值 集 的 RMS 值 是 原始 值 
的 平方 的 算术 平均 的 平方 根 。 若 ei 是 第 i 个 实例 的 误差 , 则 RMS 值 


























严重 , 并 导致 过 拟 合 (过 度 训练 )。 当 训练 实例 很 少 , 或 者 模型 中 的 参数 很 多 时 , 更 容易 发 生 





这 种 情况 。 








如 果实 例 数量 非常 有 限 ， 就 会 面临 一 个 问题 : 我 们 是 希望 用 其 中 的 大 多 数 来 训练 ,但 要 
承担 一 个 差劲 的 有 噪声 的 性 能 测量 的 风险 , 还 是 拥有 一 个 更 具 健 壮 性 的 性 能 测量 , 但 要 放弃 
一 些 训练 实例 ? 上 基体 来 说 ， 如 果 有 50 个 蘑菇 实例 ， 你 是 用 其 中 的 45 个 来 训练 ,用 剩 下 的 5 


个 来 做 测试 , 还 是 30 个 用 于 训练 , 20 个 用 于 测试 ? 
帮 有 我 们 跳 过 这 个 尴 众 的 境况 ,这 是 一 种 普遍 适 




































































而 不 是 依靠 数学 分 析 。 
交叉 验证 的 基本 思路 是 以 不 同 的 划分 形式 将 原 实例 集 多 次 划分 成 两 部 分 ,一 部 分 用 于 训 








练 ， 为 一 部 分 用 导 


测试 ， 再 重复 多 次 训练 -测试 实验 , 最 后 取 测 试 结果 的 





区 均 

















幸好 交叉 验证 (cross-validation ) 可 以 
用 的 方法 , 它 通过 重复 实验 来 预测 模型 的 性 能 ， 





值 。 这 一 思路 可 





以 通过 K 折 交 叉 验证 来 实现 : 将 原 集 随机 分 为 K 个 子 样本 , K-1 个 子 样本 








用 于 训练 , 还 有 
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一 个 子 样本 用 于 测试 。 重复 这 一 过 程 K 次 ,保证 每 个 子 样本 有 且 仅 有 一 次 作为 验证 数据 。 最 
后 , 将 各 次 的 结果 平均 计算 出 一 个 估计 值 。 这 种 方法 的 优势 是 每 一 个 测 点 都 既 充 当 过 训练 数 
据 ， 又 充当 过 验证 数据 , 并 且 刚好 有 一 次 用 于 验证 。 若 实例 集 实 在 是 非常 小 , 则 可 使 用 交叉 验 
证 的 一 种 极端 情况 一 一 留 一 验证 (leave-one-out cross-validation), 每 次 留 下 原 实例 集中 单独 的 
一 个 测 点 用 作 验 证 数据 , 余下 的 实例 都 用 作 训 练 数据 (这 种 情况 下 , K 等 于 实例 数 )。 

分 层 交 叉 验 证 (stratified cross-validation) 作为 一 种 改进 , 可 以 避免 训练 集 和 测试 集中 不 
同类 的 平衡 问题 。 它 能 够 避免 有 时 发 生 这 种 情况 ， 即 某 一 个 类 在 训练 集中 很 多 ,而 在 验证 集 
中 很 少 (相对 于 所 有 实例 的 平均 出 现 率 )。 应 用 分 层 能 够 分 别 从 每 个 类 别 中 抽取 出 4/K 个 测 
试 样本 ,以 保证 不 同类 别 的 实例 分 布 均衡 ( 见 图 3-3)。 


N/K( 测 试 ) 





























































































































1 一 N/K( 训 练 ) 










/天 (测试 ) 


二 全 = 


N,—N,/ KONZ) 


Ma/ 天 (测试 ) 


N-N/ KONZ) 

















图 3-3 ”分 层 交 义 验证 , 图 中 是 两 个 类 别 的 例子 。 在 普通 的 交叉 验证 中 , 实例 的 1/K 用 于 测试 ， 
然后 该 切片 “轮换 ”天 次 。 在 分 层 的 情形 中 , 每 个 类 别 中 有 一 个 独立 切片 , 用 于 保持 两 
个 类 别 的 相对 均衡 





























如 果 机 器 学 习 方 法 本 身 也 有 一 些 需 要 调节 的 参数 ， 那么 将 产生 一 个 附加 问题 。 为 了 避免 
与 模型 中 的 基本 参数 混淆 , 或 者 说 为 了 避免 与 多 功能 盒子 中 自 定义 的 权重 相 混 浠 ， 我们 称 这 
些 参数 为 元 参数 。 假设 我 们 想 要 确定 一 个 迭代 的 最 小 化 方法 的 终止 条 件 (什么 时 候 停止 训练 )， 
或 者 一 个 多 层 感知 器 中 的 隐藏 神经 元 的 数量 ， 再 或 者 一 个 支持 向 量 机 (SVM) 中 的 关键 参数 
的 合适 取 值 。 为 元 参数 寻找 最 优 值 意味 着 需要 多 次 重用 验证 集 。 而 重用 验证 集 又 意味 着 它们 
也 成 为 了 训练 过 程 的 一 部 分 。 事实 上 我 们 正在 处 理 一 种 元 学 习 ， 也 就 是 要 学 会 学 习 的 最 佳 方 
法 。 验证 集 被 重用 得 越 多 , 测 得 的 性 能 就 越 可 能 过 于 乐观 , 这 很 危险 , 因为 已 经 和 新 的 数据 上 
的 真实 表现 不 一 致 了 。 这 就 是 现实 版 的 “对 数据 进行 的 严刑 逼供 ”如 果 拷 打 得 足够 入， € 
会 向 你 坦白 任何 事情 ”。 
在 上 面 提 到 的 方法 中 ,有限 的 实例 集中 的 每 一 个 实例 都 被 用 于 各 种 用 途 , 而 合理 的 做 法 
是 , 需要 将 数据 分 为 3 MES: 一 个 训练 集 、 一 个 验证 集 和 一 个 (最 后 的 ) 测试 集 。 其 中 测试 
集 仅 在 最 后 测试 性 能 时 用 到 一 次 。 

最 后 ,请 注意 , 在 标准 的 单 轮 训练 -验证 循环 中 , “验证” 和“ 测试” 常 被 用 作 同 义 词 ， 这 
可 能 会 更 令 人 感到 困惑 。 
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3.3 ”不 同类 型 的 误差 


当 作 可 食用 的 








点 时 间 。 根 据 问题 的 不 同 ， 确 


在 测试 一 个 模型 的 性 能 有 











T, AEEA 





的 误差 带 来 的 影响 并 不 一 样 。 如 果 你 将 有 毒 的 蘑菇 











， 你 可 能 会 有 生命 危险 ; 如 果 你 将 可 食用 的 蘑菇 当 作 有 毒 的 ， 你 只 是 浪费 了 一 






































定 最 佳 分 类 的 标准 也 随 之 改变 。 考 虑 一 个 二 元 分 类 (输出 “是 ” 


或 者 “和 否 ”) 。 一 些 可 能 的 标准 是 : 准确 率 (accuracy)、 精 确 率 (precision) 和 召回 率 (recall)。 


mt 


Ty 



































准确 率 
图 3-4 
类 , 再 从 顶部 退出 的 情况 。 准 
案 占 标记 为 正 类 的 比例 , A 








准确 率 是 这 个 分 类 器 给 出 

















确 率 定义 为 正确 答案 
回 率 定 义 为 正确 答案 





虽然 它们 的 定义 都 很 简单 , 但 是 需要 小 心 区 分 以 避免 混淆 ( 见 图 3-4)。 























精确 率 


矩阵 中 的 每 一 行 报告 一 个 类 别 的 不 同 分 类 。 你 可 


召回 率 

以 想象 从 左边 进入 , 按 不 同 的 列 进行 分 
占 总 体 的 比例 , 精确 率 定 义 为 正确 答 
占 本 身 是 正 类 的 比例 。 图 中 依据 浅 灰 色 
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区 域 的 案例 , 对 瞳 灰 色 











区 域 的 案例 进行 





了 划分 


E 确 结果 《〈 真 的 正 类 和 真 的 负 类 ) 的 比例 。 其 他 的 度量 标准 都 











专注 于 被 标记 为 属 了 


F 此 类 CT 








是 指 错误 地 被 标记 为 属于 正 类 的 实例 )。 召 回 率 等 于 真 的 正 类 数 除 以 本 身 








ER”) 的 情况 。 精 确 率 等 于 真 的 正 类 数 正确 地 被 标记 为 属于 
正 类 的 实例 数 ) 除 以 被 标记 为 属于 正 类 的 实例 数 ( 真 的 正 类 数 和 假 的 正 类 数 之 和 , 假 的 正 类 









































属于 正 类 的 实例 数 























《 即 真 的 正 类 数 和 假 的 负 类 数 之 和 ， 假 的 负 类 是 本 应 该 标记 为 正 类 ， 却 错误 地 被 标记 为 负 类 





的 实例 )。 精 确 





题 :“ 有 多 少 正 








更 高 , 还 是 召回 率 更 高 ? 
混淆 矩阵 (confusion matrix) 展示 了 不 同 案例 的 分 类 情况 , 其 中 有 正确 的 分 类 , 也 有 被 混 


消 成 其 他 类 别 的 〈 见 图 
其 中 的 每 一 行 都 展示 了 某 











3-5). 











All AFS 








个 类 另 


率 回 答 这 个 问题 :“ 有 多 少 被 标记 为 正 类 的 案例 是 正确 的 ?” 召 回 率 
类 的 案例 被 正确 地 检索 为 正 类 了 ?” 那 么 现在 , 在 采摘 蘑菇 时 ,你 是 希望 精确 


























回答 这 个 问 
率 



























































1 的 情况 : 考虑 的 总 实例 数 ， 以 及 其 中 有 多 少 被 正确 地 识 
1 线 上 的 单元 格 ), 或 者 有 和 多少 被 错 认为 其 他 类 别 的 成 员 (其 他 列 上 的 单元 格 )。 
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图 3-5 EAE PS ES). IR ES. Bl 
如 数字 “3” 被 正确 识别 632 次 , 被 错 认 为 “2”8 次 , 被 错 认 为 “5”10 次 , 被 错 认 为 
“8”7 次 。“3” 从 没有 被 错 认 为 “1” 或 “4”， 因 为 它们 的 形状 差别 太 大 了 
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EO M 


机 器 学 习 (ML) 的 目标 是 用 一 个 训练 实例 集 来 建立 系统 , 这 个 系统 能 够 正确 地 泛 化 到 
新 实例 上 , 这 些 新 的 实例 是 在 学 习 阶段 没有 见 过 的 , 但 来 自 同 一 个 问题 。 

ML 的 学 习 即 是 为 一 个 灵活 的 模型 找到 合适 的 参数 值 ， 这 些 参数 要 使 得 实例 集 上 的 误 
差 度量 自动 最 小 化 , 同时 也 需要 避免 复杂 的 模型 ， 从 而 增加 正确 泛 化 的 概率 。 

这 个 系统 的 输出 值 可 以 是 一 个 类 (分 类 问题 ), 或 者 是 一 个 数值 (回归 问题 )。 在 某 些 
情况 下 , 为 了 增加 可 用 性 , 可 以 输出 某 一 类 的 概率 。 
只 要 我 们 有 丰富 的 有 代表 性 的 数据 , 我 们 可 以 在 不 知道 背景 知识 的 情况 下 建立 一 个 准 
外 的 分 类 器 。 相 较 于 基于 专业 领域 知识 的 手动 构建 的 系统 , 这 是 一 个 了 不 起 的 改变 。 

ML 是 非常 强大 的 , 但 是 它 要 求 严格 的 方法 (一 种 ML 的 “教育 学 ”)。 可 以 肯定 的 是 ， 
不 要 在 训练 集 上 测试 性 能 ， 因 为 这 是 弥 天 大 罪 : 重用 验证 数据 将 导致 过 于 乐观 的 估计 。 如 
果实 例 非常 稀缺 ,你 可 以 使 用 交叉 验证 这 一 手段 来 炫耀 你 是 个 ML 专家 。 

为 了 安全 起 见 ， 也 为 了 置身 于 ML 的 天 堂 , 你 应 该 保留 一 些 实例 用 于 测试 , 仅 在 最 后 
测试 性 能 的 时 候 使 用 它们 。 

测试 一 个 模型 的 性 能 的 方法 并 不 是 唯一 的 , 不 同类 型 的 误差 可 能 造成 不 同 的 损失 。 准 
确 率 、 精 确 率 和 召回 率 是 二 元 分 类 中 性 能 度量 的 一 些 可 能 的 选择 ,对 于 更 多 类 别 的 情况 ， 
一 个 混淆 矩阵 可 以 给 出 全 部 信息 。 
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第 4 章 线性 模型 


大 多 数 惯 用 右手 的 人 拥有 线性 思维 ， 爱 用 传统 的 方式 思 
考 。( 读 者 可 以 自由 选择 是 否 相信 我 们 的 开场 白 。) 





























优化 的 强大 力量 建立 在 拥有 神奇 力量 的 线性 代数 上 。 你 是 否 记得 在 学 校 里 老师 说 “好 好 
学 习 线性 代数 ,你 会 受益 终身 ”? 好 吧 , 多 年 以 后 你 会 发 现 他 是 对 的 。 线 性 代数 是 “数学 生存 
TA”, 当 你 面临 一 个 棘手 的 问题 时 , 应 该 首先 试 试 线性 方程 组 。 在 很 多 情况 下 ,即使 你 不 
能 用 线性 代数 直接 解决 这 些 问 题 ， 至 少 也 能 得 到 一 个 不 错 的 逼近 。 这 不 足 为 奇 ， 解释 数据 的 
模型 也 是 这 样 的 。 
图 4-1 中 画 出 了 不 同 车 型 的 价格 与 它们 的 功率 之 间 的 函数 关系 。 正 如 你 所 能 想到 的 ， 功 
率 越 大 的 汽车 , 价格 也 会 越 高 。 汽车 经 销 商 是 诚实 的 , 这 两 个 量 之 间 有 着 近似 的 线性 关系 。 如 
果 用 这 个 线性 模型 (这 条 直线 ) 来 总 结 这 些 数据 , 我 们 的 确 会 损失 一 些 细节 , 但 是 趋势 会 保留 
Ke 我 们 所 做 的 就 是 用 直线 来 拟 合 (fitting) 这 些 数 据 。 
当然 ， 定 义 我 们 所 说 的 “最 优 拟 合 ”会 马上 将 我 们 引 向 优化 optimizing) 对 应 的 收益 函 
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100 200 300 400 500 600 700 
功率 (马力 ) 


图 4-1 不 同 车 型 的 价格 与 功率 的 数据 。 线 性 模型 看 起 来 像 一 条 直线 























4.1 ”线性 回归 

















输入 与 输出 特征 的 线性 相关 是 一 个 广泛 采用 的 模型 。 这 一 模型 十 分 简单 ,并且 训练 起 来 
很 容易 。 另 外 , 模型 中 每 一 项 的 权重 系数 都 为 这 一 项 对 应 的 特征 的 重要 性 提供 了 直观 的 解释 : 
某 一 项 权重 系数 的 绝对 值 越 大 , 对 应 的 属性 的 影响 就 越 大 。 所 以 , 为 了 不 让 问题 变 得 复杂 , 不 
要 轻易 尝试 非 线 性 模型 ， 除非 你 的 理由 十 分 充足 。 

数学 家 不 愿意 浪费 树木 和 纸张 ， 数 组 向量) 常用 一 个 字母 来 表示 , 比如 we 向 量 w 
它 的 分 量 (wi,w2,… ,wa) 组 成 , 其 中 d 是 输入 属性 的 个 数 , 或 者 说 维度 。 向量 以 一 列 的 方式 
“站 着 ” AL EMTS POR, 你 可 以 对 它们 进行 转 置 操 作 , 得 到 wT 了。 因此 , 向 量 w 和 z 之 
间 的 标量 积 就 是 wl oe, 根据 标准 的 矩阵 乘法 , 相当 于 wie + wore +++: + watao 

输出 与 输入 参数 成 线性 关系 的 这 一 假设 可 以 表示 为 : 
























































































































































T 
Yi = Wo :Tit &, 








其 中 w = (w, ,wa) 为 待 确定 的 权重 向 量 ，ei 是 误差 项 。 在 大 多 数 情况 下 ， 假 设 误差 项 
ei 遵从 高 斯 分 布 。 即 使 一 个 线性 模型 能 正确 地 解释 这 些 现象 ,误差 仍然 会 在 测量 时 产生 : 每 



























































Q@ 在 本 书 中 我 们 不 能 非常 深入 地 讲解 线性 代数 , 我 们 将 给 出 基本 的 定义 和 动机 ， 你 能 够 非常 容易 地 在 专业 书籍 或 者 
网 站 上 找到 进一步 的 内 容 。 
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美的 。 
现在 人 们 寻找 一 个 权重 向 量 w, 使 得 线性 函数 




















f(x) = wT. x (4.1) 














尽 可 能 逼近 实验 数据 。 这 一 目标 可 以 通过 寻找 使 平方 误差 和 最 小 的 w* 来 达到 Cae) FR 
近 ，least squares approximation): 
e 
ModelError(w) = Se -£i — yi)? (4.2) 
ii 
如 果 在 一 个 不 太 现实 的 场景 里 ,测量 误差 为 零 并 且 有 一 个 完美 的 线性 模型 ， 那 么 就 留 下 
了 一 个 线性 方程 的 集合 wT .zi = yi， 其 中 每 一 个 方程 对 应 一 次 测量 , 如果 这 个 方程 组 是 良好 
EXHI Cd 个 未 知 数 对 应 a 个 非 元 余 的 方程 ), 那么 它们 可 以 用 标准 的 线性 代数 方法 求解 。 然 而 
在 所 有 的 现实 场景 里 , 测量 误差 都 是 存在 的 , 并 且 测 量 数 (x ys) 可 以 远 远大 于 输入 维度 。 因 
此 人 们 需要 寻找 一 个 近似 解 , 确保 权重 向 量 w 使 得 式 (4.2) 对 应 的 值 一 一 通常 大 于 零 一 一 尽 
可 能 小 。 
使 用 线 型 模型 其 实 不 需要 了 解 式 (4.2) 是 如 何 被 最 小 化 的 ， 优 化 的 真实 信徒 可 以 放心 地 
相信 它 解决 线性 模型 问题 的 神奇 手法 。 但 如 果 你 对 此 充满 好 奇 ， 或 有 自虐 倾向 ， 或 要 处 理 某 
些 规 模 非 常 大 而 且 比较 困难 的 情况 ,可 以 考虑 读 一 下 46 Al 4.7 市 。 









































































































































4.2 处理 非 线性 函数 关系 的 技巧 


线性 代数 的 美味 现在 肯定 让 你 食欲 大 增 了 ,但 很 可 惜 ， 并 不 是 所 有 情况 都 能 被 一 个 线性 
模型 解决 。 在 很 多 情况 下 ， 一 个 形 如 f(a) = wTz 的 函数 是 不 实用 的 ， 因 为 它 确实 有 着 过 多 
的 限制 。 尤其 考虑 到 它 还 假设 f(0) = 0。 这 个 问题 可 以 通过 加 入 一 个 常数 项 wo 来 解决 , 这 样 
就 从 线性 (linear) 模型 变 成 了 仿 射 (affine) 模型 : f(x) = wo + wT .z。 这 一 常数 项 也 可 以 并 
入 到 内 积 中 , 只 需要 重新 定义 x= (lz ,Xaq)， 这样 等 式 (4.1) 对 仿 射 模型 仍然 成 立 。 

加 入 一 个 常数 项 是 建 模 非 线性 函数 关系 方法 的 一 种 特殊 情况 , 然而 其 他 部 分 还 属于 最 小 
二 乘 逼近 的 简单 情况 。 这 一 明显 的 矛盾 可 以 用 一 个 技巧 来 解决 : 仍然 用 线性 模型 ， 只 不 过 将 
原 输入 数据 z 进行 非 线 性 转换 得 到 非 线 性 属性 ,并 在 其 上 应 用 线性 模型 。 我 们 可 以 定义 这 样 
的 一 个 函数 集 ; 









































































































































r Pn : RË — R” 


它 从 输入 空间 映射 到 茶 个 更 为 复杂 的 空间 ， 使 得 我 们 可 以 用 向 量 pl) = ($1(2),…., On (w)) 
进行 线性 回归 , 而 不 是 原始 数据 z。 
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举例 来 说 , 如 果 d = 2 并 且 输 入 向 量 z = (z1,2z2), 输出 的 三 次 相关 可 以 通过 如 下 的 基 骂 


数 (basis function) 得 到 : 























2 
2 
注意 定义 plL) 是 为 了 使 函数 中 人 允许 第 数 项 的 存在 。 上面 描述 过 的 线性 回归 的 方法 则 可 以 用 






























































更 精确 地 说 , 我 们 寻找 如 下 的 一 个 函数 , 它 是 权重 向 量 w 和 属性 向 量 p(z) 的 标量 积 : 
f(z) = w" .ela) 


输出 是 这 些 变换 后 的 属性 的 加 权 和 。 











4.3 ”用 于 分 类 的 线性 模型 


4.1 节 考 虑 了 能 近似 拟 合 观察 数据 的 线性 函数 , 例如 最 小 化 平方 误差 的 总 和 。 然而 在 某 些 

任务 中 , 输出 的 可 能 取 值 被 限定 在 一 个 很 小 的 集合 里 。 其 中 涉及 分 类 问题 。 
假设 输出 变量 是 二 值 的 (如 土 1)。 在 此 情况 下 , 线性 函数 可 以 用 作 判 别 器 (discriminant)， 
基本 思路 是 让 一 个 垂直 于 向 量 w 的 超 平面 将 这 两 类 隔离 开 。 平面 是 直线 的 一 般 化 ; 同样 ， 当 
维度 大 于 3 时 , 超 平面 就 是 平面 的 一 般 化 。 
训练 过 程 的 目标 是 找到 最 佳 的 超 平 面 ,使 得 属于 同一 类 的 实例 在 这 个 超 平面 的 一 边 ,而 
属于 另 一 类 的 实例 在 另 一 边 。 用 数学 语言 表述 就 是 , 要 找到 最 佳 的 系数 向 量 w 使 得 决策 程序 
人 如 果 wwT.z>0 

y= 
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一 1 其 他 情况 


表现 得 最 好 。 决定 最 优 线性 分 离 函 数 〈(best separating linear function， 几 何 上 的 一 个 超 平面 ) 
的 方法 取决 于 分 类 标准 和 误差 度量 的 选择 。 

从 这 一 章 可 知 ， 如 果 要 进行 回归 ， 可 以 要 求 第 一 类 的 点 映射 到 +1， 第 二 类 的 点 映射 到 
一 1。 这 是 一 个 比 可 分 离 更 强 的 要 求 , 但 是 让 我 们 能 够 使 用 回归 的 方法 , 像 梯度 下 降 法 (gradient 
descent) 和 广义 逆 矩 阵 法 (pseudo-inverse)。 此 外 ,最 小 二 乘法 不 仅 可 以 实现 两 个 类 别 样本 的 
分 类 (如 果 这 两 类 样本 是 可 分 的 ), 还 可 以 让 分 类 是 健壮 的 , 分 割 的 超 平 面 离 样本 都 很 远 ， 这 
也 是 接 下 来 的 章节 将 会 遇 到 的 一 个 主题 。 通过 强制 模型 的 输出 为 +1 或 -1， 加 上 平方 误差 惩 
昼 项 ， 可 以 避免 得 到 过 多 的 分 割 超 平面 ， 从 而 提升 模型 的 稳定 性 。 一 个 普通 的 分 割 超 平 面 可 
能 使 得 正 负 样本 的 输出 都 接近 于 0 (例如 +1 样本 的 输出 值 为 0.000001, 一 1 样本 的 输出 值 为 
-0.000001)， 这 样 当 我 们 使 用 该 模型 对 有 噪声 的 测试 数据 进行 分 类 时 ， 就 很 容易 得 到 错误 的 
类 别 〈 见 第 11 章 , 图 11-1). 
















































































































































































如 果 训 练 实例 不 能 被 一 个 超 平面 所 分 离 , 要 么 忍受 一 些 训练 误差 , 要 么 尝试 使 用 前 面 建 
议 的 技巧 , 从 原始 数据 中 计算 出 一 些 非 线性 的 属性 , 使 得 变化 后 的 输入 能 够 被 分 离 。 图 4-2 给 
出 了 一 个 例子 ， 两 个 在 0-1 坐标 上 的 输入 ,输出 是 对 应 的 异 或 函数 KOR 函数 , 一 个 输入 与 




















另 一 个 输入 的 或 ,但 不 都 等 于 1)。 
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度 的 空间 , 通过 超 平 面 获 得 线性 分 离 


























在 原 二 维 输入 空间 里 , 这 两 类 (以 1 或 者 0 为 输出 ) 不 能 被 
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图 4-2 不 能 进行 线性 分 离 的 情形 (XOR, 函数 , 左 )。 可 以 通过 将 点 以 非 线 性 方式 映射 到 更 高 维 
































44 大脑 是 如 何 工 作 的 
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条 直线 (AE 











面 ) 分 离 。 但 是 它们 能 够 在 转换 后 的 三 维 输入 空间 里 被 一 个 平面 分 隔 开 。 





我 们 的 大 脑 是 一 团 乱 拱 , 至 少 本 书 作 者 的 是 这 样 。 可 以 肯定 的 是 ,计算 两 个 很 大 数 的 和 
的 系统 , 与 玩 “ 赶 尽 杀 绝 ” 这 类 动作 游戏 的 系统 是 很 不 一 样 的 。 进行 逻辑 演算 或 推理 的 系统 认 
出 母亲 的 脸 的 系统 也 是 很 不 一 样 的 。 前 一 种 系统 是 迭代 的 , 它 的 工作 方式 是 按照 顺序 的 步 双 
来 进行 的 , 需要 有 意识 地 努力 集中 注意 力 。 后 一 种 系统 以 并 行 的 方式 工作 , 速度 很 快 , 无 须 太 























多 努力 ， 以 非 符号 的 方式 〈 不 会 用 到 符号 和 逻辑 ) 工作 
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机 器 学 习 中 的 不 同 机 制 可 以 模仿 这 两 类 系统 。 线 必 








判别 器 运 月 

















HIS AR REE 





来 逐步 改进 , 它 更 多 模仿 的 是 非 符号 系统 ; 基于 一 连 串 “如 果 - 那 么 -否则 ”规则 (后面 的 曹 节 





将 会 提 到 它们 ) 的 分 类 树 更 多 模仿 的 是 逻辑 系统 。 




















神经 元 的 类 比 。 神 经 元 以 化 学 突 触 来 通信 ( 见 图 4-3) 
神经 元 是 一 类 特定 的 细胞 ， 它 们 专门 将 信号 传递 给 各 
突 触 。 





























用 于 分 类 的 线性 函数 有 许多 名 字 ,， 其 中 具有 历史 意义 的 一 个 是 感知 器 ， 它 强调 了 与 生物 





。 突 触 “ 在 神经 元 的 工作 中 必 不 可 少 : 





ASHE AA Hed, 





而 完成 这 一 工作 需要 依靠 





O “RAR (synapse) ”这 个 词 是 由 希腊 语 “syn-”( 在 一 起 ) 与 “haptein”( 密 切合 作 ) 合成 的 。 





4.5 RRA Ayia, ATTRA 31 
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图 43 人 类 大 脑 中 的 神经 元 和 突 触 
触发 突 触 进行 信号 传递 的 基本 过 程 是 利用 传播 的 电信 号 , 这 些 电信 号 义 是 从 神经 元 的 电 




















兴奋 膜 产生 的 。 当 且 仅 当 兴 奋 性 和 抑制 性 突 触 的 输入 信和 号 的 结合 超过 某 个 给 定 的 阔 值 时 ， 这 


个 

















昌 信 号 才 会 产生 (神经 元 的 输出 打开 了 )。 图 4-4 因此 可 以 被 看 作 单 个 神经 细胞 的 抽象 和 功 





能 性 的 表示 。 


4.5 














图 44 感知 器 : 输入 的 加 权 和 通过 最 终 的 “ 挤 压 ” 函数 输出 

















线性 模型 为 何 普遍 , 为 何 成 功 
线性 模型 如 此 普遍 的 深层 原因 是 存在 于 许多 或 大 部 分 物理 现象 中 的 平滑 性 (“自然 不 多 














许 跳跃 ”)。 图 4-5 中 的 例子 表明 ,青少年 的 平均 身高 随 着 年 龄 逐渐 增长 ,而 不 是 跳跃 式 地 增 
长 , 直到 青春 期 之 后 慢 慢 停滞 。 
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年 龄 (3 ) 
图 45 描述 物理 现象 的 函数 一 般 都 是 平滑 的 。 图 中 身高 -年 龄 曲线 可 以 用 从 2~20 岁 的 切线 逼近 


现在 , 如 果 你 记得 微 积分 的 知识 , 每 一 个 光滑 (可 微 ) 函数 都 可 以 在 一 个 点 ze 附近 得 到 
它 的 泰勒 展开 式 逼 近 。 这 个 展开 式 序列 的 第 二 项 就 是 线性 的 , 由 梯度 Vf (ace) 和 位 移 量 的 标量 
积 给 定 ， 祭 项 以 二 阶 的 速度 收敛 到 零 ， 


\-H 






































f(x) = f(ae) + VF (ae) (@ — £e) + O(Nz — zell?) (4.4) 


因此 , 在 平滑 系统 中 , 如 果 考 虑 与 一 个 特定 点 ze 相距 很 近 的 点 , 那么 线性 逼近 是 一 个 合理 的 
起 点 。 

一 般 情 况 下 ， 局 部 模型 将 只 在 一 个 给 定 的 点 附近 表现 得 相当 好 。 在 青少年 身高 增长 的 线 
性 模型 中 , 7 岁 那个 点 对 应 的 切线 在 15 岁 以 后 就 不 适用 了 。 幸 好 如 此 ,否则 我 们 的 房子 就 不 
WRK T 














46 ”最 小 化 平方 误差 和 


线性 模型 通过 最 小 化 式 (4.2) 中 的 平方 误差 和 确定 下 来 。 如 果 你 不 满足 于 “证 据 在 布丁 
里 ”的 说 辞 ,而 是 想 深入 理解 这 件 事情 ,那么 请 继续 读 下 去 。 


© eA 下 表明 ,“ 我 ”有 足够 的 证 据 , 但 “我 ”不 想 论证 了 , 你 自己 试 试 就 知道 了 。( 原 意 是 , 布丁 好 不 好 吃 , 得 自己 
尝 尝 .) 译 者 注 



























































46 最 小 化 平方 误差 和 
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前 面 提 和 到 
线性 方程 ww - 














Ti = Yi» 








I 过 , 在 一 个 零 测量 误差 和 完美 线性 模型 的 不 现实 场景 9 





每 一 个 这 样 的 方程 对 应 于 











次 测量 。 如 果 这 个 系统 是 




















E, ANIK 























需要 解 一 系列 
好 定义 的 (ad 个 


非 元 余 的 方程 对 应 d 个 未 知 数 ), 我 们 就 可 以 通过 对 系数 矩阵 求 逆 (inverting the matrix) 来 


解 这 些 方程 。 














大 于 参数 个 数 do FH 











会 适 得 


反 。 








我 们 需要 通过 允许 误差 的 存在 来 将 线性 方程 组 的 解 进 行 一 般 化 ， 从 而 一 
































在 实际 操作 中 , 让 模型 误差 (ModelError) 达到 零 是 不 可 能 的 ,另外 数据 点 的 个 数 会 远 远 
L, 我 们 要 记 住 学 习 的 目标 是 泛 化 ,我 们 感 兴趣 的 是 降低 未 来 预测 的 误 
差 。 没 必要 过 分 地 要 求 降低 训练 误差 .以 极 低 或 零 误差 重新 产生 训练 样本 ,这 种 要 求 事 实 上 


股 化 矩阵 的 逆 。 


幸运 的 是 , 等 式 (4.2) 是 二 次 的 , 求 它 的 最 小 值 将 再 次 得 到 线性 方程 组 。 实际 上 , 你 可 能 会 意 


























识 到 二 次 模型 的 成 功 J 














FE 与 这 个 事实 有 关 : 在 我 们 计算 导数 后 , 就 留 下 了 一 个 线性 表示 。 























如 果 你 熟悉 数学 分 析 , 那么 求 最 小 值 很 简单 : 计算 梯度 , 然后 要 求 它 为 零 。 如果 你 不 熟悉 


数学 分 析 , 想 想 一 个 山谷 的 底部 (最 小 值 的 那些 点 ) 的 特 生 


在 同一 个 高 度 




















下 面 的 方程 可 以 丰 








pE w 的 最 优 值 : 
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Foy = (yi. 
外 
的 一 种 很 

DAAE BE te TF E 

















阵 » 


最 小 二 乘 解 能 避免 无 法 找到 精确 解 的 尴 众 , 并 | 
自然 本 身 和 物 至 
跻身 于 最 流行 的 工具 中 。 

解 等 式 (4.5) 的 方法 是 “一 招引 
权重 系数 。 在 某 些 情况 下 ,如果 训 
W: 从 一 个 初始 权重 系数 开始 , 然后 沿 着 负 梯 度 的 方向 小 步 移 动 ，] 
稳定 点 。 顺便 说 一 下 , 也 许 你 已 经 想到 了 , 真实 的 神经 系统 ,比如 大 脑 ， 并 不 采 月 
种 “一 招 制 胜 ” 的 方式 ， 而 是 更 多 地 使 用 迭代 的 方法 , 逐步 地 改进 权重 系数 。 也 许 这 就 
里 不 那么 受 欢迎 的 原因 。 

















实 中 ， 精 有 
STE FEF fii 


模型 与 


























代数 在 学 校 





wt = (XTX) 4X y 


ym) FFA X 是 以 向 量 zx; ATA 
ERE (XTX)-1XT 是 广义 逆 和 矩阵 (pseudo-inverse)， 它 是 对 那些 非 方 阵 久 
自然 的 延伸 。 如 果 这 个 和 矩阵 是 可 逆 的 ， 并 上 且 














但 是 一 般 情 况 下 ， 例 如 训 
H. 

















E 阵 。 

















练 实例 数 大 了 





PE 














能 提供 一 个 统计 J] 












































本 点 都 有 
簧 都 有 一 样 
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aa 























平方 成 正比 , 因此 式 (4.2) 


主意 平方 误差 的 最 小 化 有 如 图 4-6 中 物理 学 | 
民 与 刚性 杆 相 连 的 寻 






































测量 的 不 精确 


E 直 弹簧 ,这 个 刚性 杆 





性 是 无 法 兼容 的 
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是 最 优 拟 合 





=- 
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(4.5 





FE, 就 是 一 些小 的 移动 , 会 使 你 保持 


) 


E 阵 的 矩阵 求 逆 
[这 个 问题 可 以 零 误差 地 求解 ,那么 广义 
EE 系数 的 个 数 时 ,寻求 一 个 
P” ffo ÆI 
PA) ee te E PR aie RA 
E”: 从 实验 数据 中 算出 广义 逆 和 矩阵 ， 然 后 相 乘 得 到 最 优 
练 实例 数 非常 大 ,基于 和 迭代 方法 的 梯度 下 降 可 能 会 更 受 欢 
直到 梯度 变 为 零 , 到 达 一 个 
线性 代数 这 





线性 


:的 弹簧 模型 的 类 比 。 想 象 一 下 ,每 一 个 样 
线 的 物理 实现 。 所 有 的 弹 
的 弹性 系数 ,在 松弛 状态 下 长 度 为 零 。 这 种 情况 下 ， 每 根 弹 赞 的 势能 与 它 长 度 的 


述 了 这 个 系统 的 整体 势能 ,， 仅 相差 一 个 常数 因子 。 如 果 让 这 个 物 














理 系 统 振荡 起 来 , 直到 达到 平衡 , 在 阻尼 振荡 的 情况 下 ,那么 这 根 蜀 性 杆 的 最 终 位置 就 给 
了 最 小 二 乘 的 拟 合 参数 ; 这 就 是 一 台 直 线 拟 合 的 模拟 计算 机 。 
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co 





























> 
图 46 ”在 物理 学 中 , 最 小 二 乘 拟 合 的 原理 类 似 于 弹簧 , 最 佳 拟 合 的 直线 最 小 化 整个 系统 中 所 有 
弹簧 的 势能 (正比 于 弹簧 长 度 的 平方 和 ) 


你 肯定 会 筷 了 广义 逆 和 矩阵， 但 肯定 永远 不 会 态 记 这 个 阻尼 振荡 的 弹簧 物 理 系统 ， 它 能 大 
这 些 实验 数据 找到 最 好 的 拟 合 直 线 。 

如 果 属 性 是 通过 某 个 p 函数 变形 的 (作为 一 个 考虑 非 线 性 关系 的 技巧 ), 求解 的 方式 也 
十 分 相似 。 令 af = plx), i = 1,… ,表示 训练 输入 元 组 zi 的 变形 。 如 果 X 是 以 zx; 为 行 问 
量 的 矩阵 ,那么 关于 最 小 二 乘 有 逼近 的 最 优 权 重 系 数 可 以 这 样 求 得 : 














































































































w* 一 (XTX)- 1X’Ty (4.6) 


4.7 ”数值 不 稳定 性 和 上 岭 回 归 


实数 (比如 x 和 “大 多 数 ” 的 数 ) 无 法 在 数字 计算 机 中 表示 出 来 , 它们 是 “ 伪 的 ”。 数字 
计算 机 中 的 每 个 数 都 被 赋 以 一 个 固定 的 有 限 的 二 进 制 数 , 没有 方法 来 表示 一 个 无 限 数位 的 数 ， 
像 3.14159265...。 因 此 , 在 计算 机 中 表示 的 实数 都 是 “ 伪 的 ” 它们 能 并 且 经 营造 成 误差 。 误 
差 会 在 数学 运算 的 过 程 中 不 断 传 播 , 在 某 些 情况 下 , 一 连 串 运算 的 结果 可 能 与 数学 上 的 结果 
相差 甚 远 。 找 一 个 矩阵 , 求 它 的 逆 和 矩阵 , 并且 将 二 者 相 乘 。 你 期 望 会 得 到 单位 矩阵 , 但 最 后 你 
却 得 到 一 个 不 同 的 答案 。 也 许 你 应 该 查 查 银行 使 用 的 小 数 精 度 。 
当 训练 实例 数 很 大 的 时 候 ， 式 (4.6) 是 超 定 Cover-determined) 情况 的 线性 系统 的 解 〈 线 
性 方程 多 于 变量 )。 特 别 是 矩阵 XTX 必须 是 非 奇 异 的 ,这 要 求 训练 点 集 x1,… ,ze 没有 全 部 
落 在 R 的 某 个 真子 空间 里 , 也 就 是 说 它们 没有 被 “对 齐 ”。 在 很 多 情况 下 ,即使 了 TX 是 可 
WN, 也 有 可 能 因为 训练 点 集 的 分 布 不 那么 合适 而 导致 不 稳定 。 稳定 性 在 这 里 意味 着 样本 点 
中 的 微 扰 只 会 造成 结果 中 的 微小 改变 。 图 4-7 中 给 出 了 一 个 例子 , 如 果 样 本 点 的 选择 不 好 ( 右 
Bl, ay 和 zs 不 是 独立 的 ), 将 会 使 系统 更 多 地 依赖 于 噪声 ， 甚 至 是 舍 入 误差 。 
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图 47 ”一 个 分 布 均匀 的 训练 数据 集 ( 左 侧 ) 会 得 到 一 个 稳定 的 数值 模型 , 而 一 个 糟糕 的 数据 点 
选择 将 会 得 到 许多 差异 很 大 的 拟 合 平面 ， 比 如 右 侧 图 中 的 数据 点 几乎 分 布 在 一 条 直线 
上 (5 引 自 参考 文献 [9p 


如 果 没 有 办 法 来 改变 训练 样本 点 的 选择 ,而 样本 点 又 没有 如 愿 地 分 布 时 ,用 以 保证 数值 
稳定 性 的 数学 工具 是 岭 回 归 (ridge reghression)。 它 在 需要 最 小 化 的 (最 小 二 乘 ) 误差 函数 中 
加 入 了 一 个 正则 化 (regularization) 项 : 

£ 
error(w; A) = >》 wT -xi — yi)? + Aw? -w (4.7) 


i=l 


1 8 1 
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对 w 进行 最 小 化 , 得 到 : 

we = (AI + XTX) IXTYy 
TERY fA k EFA EE) A EA ER E RA EEE PE. 另外 , 事实 上 人 们 也 要 求 将 权重 向 
量 的 规模 列 入 考虑 范围 ,以 避免 出 现 如 图 4-7 中 右 图 那样 陡峭 的 差 值 平面 。 术语 “ 岭 ”(ridge) 
指 的 是 将 最 优 权 重 绘制 为 A 的 函数 时 所 造成 的 图 形 突起 的 模式 。 正 如 你 所 想象 的 , 较 大 的 入 
值 会 导致 总 权重 的 收缩 (图 4-8). 




































































作为 正则 化 函数 的 岭 回 归 

















图 48 “UR” Bl, 较 大 的 和 值 会 导致 总 权重 的 收缩 
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如 果 你 感 兴趣 的 话 ， 这 一 方法 的 理论 基础 是 Tichonov 正 则 化 ， 它 是 处 理 众 多 不 适 定 〈il- 
posed) 问题 的 最 通用 的 方法 。 如果 一 个 问题 没有 给 出 足够 的 信息 来 唯一 确定 一 个 解 , 那么 这 
个 问题 被 称 为 不 适 定 的 , 例如 实例 数 不 够 多 。 因 此 有 必要 提供 一 些 额 外 的 信息 或 者 作出 平滑 
性 的 假设 通过 同时 最 小 化 实验 误差 和 惩 神 项 , 我 们 寻找 这 样 一 个 模型 ， 它 不 仅 能 很 好 地 拟 
Ao 还 足够 简单 ,以 避免 在 估计 复杂 模型 时 出 现 的 大 的 变化 。 

你 使 用 机 器 学 习 的 时 候 不 需要 知道 这 些 理论 , 但 必须 要 意识 到 这 个 问题 。 当 复杂 的 运算 
没有 产生 预期 的 结果 时 ， 这 种 意识 将 提升 你 的 故障 排除 能 力 。 避 免 非常 大 或 非常 小 的 数 是 一 
种 解决 大 多 数 问题 的 实用 方法 , 例如 在 机 器 学 习 之 前 , 对 输入 数据 进行 缩放 。 









































































































































EO M 


传统 的 线性 回归 模型 “一 组 输入 -输出 对 的 线性 逼近 ) 通过 最 小 化 线性 模型 预测 值 与 
训练 样本 输出 值 之 间 的 平方 误差 和 来 找到 可 能 的 最 好 的 实验 数据 线性 拟 合 。 最 小 化 可 以 是 
“一 招 制胜 ” 通过 推广 线性 代数 中 的 抢 阵 求知 , 也 可 以 通过 迭代 的 方式 逐步 修改 模型 参数 
并 降低 误差 。 广 义 逆 法 可 能 是 拟 合 实验 数据 的 最 常用 的 技术 。 

在 分 类 中 ,线性 模型 肯 在 用 线条 、 平 面 与 超 平 面 来 分 离 实 例 。 要 确定 分 离 平面 ， 人们 
可 以 要 求 把 输入 值 映射 到 两 个 不 同 的 输出 值 (如 +1 和 -1) 并 使 用 回归 。 考 虑 到 泛 化 性 ， 
找到 健壮 的 分 离 超 平面 的 更 先进 的 技术 是 下 面 章节 中 将 会 描述 的 支持 向 量 机 。 

计算 机 中 不 存在 实数 , 它们 只 能 用 有 限 大 小 的 二 进 制 数字 允 近 , 而 这 可 能 会 导致 误差 
和 不 稳定 (样本 点 的 小 扰动 导致 结果 变化 较 大 )。 

一 些 机 器 学 习 方 法 与 生物 大 脑 从 经 验 和 功能 中 的 学 习 方式 存在 松散 的 联系 。 学 习 骑 自 
行车 与 符号 逻辑 和 方程 无 关 , 而 是 关于 如 何 进行 逐步 调整 以 及 ”迅速 从 初始 的 事故 中 恢 
复 过 来 。 























































































































第 5 章 广义 线性 最 小 二 乘法 
如 无 必要 ， 勿 增 实体 。 
一 一 奥 卡 姆 的 威廉 ( 约 1285—1349 ) 














上 一 章 关于 线性 模型 (模型 的 参数 是 线性 的 ， 即 线性 参数 模型 ) 的 讨论 留 下 了 一 些 问题 。 
一 个 严谨 的 建 模 工作 的 输出 并 不 是 一 个 单一 的 “ 带 走 它 或 者 留 下 它 ” 的 模型 。 通 常 , 人 们 通过 
评价 一 个 模型 的 性 能 ( 拟 合 的 优 劣 ) 来 处 理 多 种 建 模 体系 结构 ， 通 过 确定 模型 参数 估计 值 的 
置信 区 间 (例如 误差 线 ) 来 选择 尽 可 能 好 的 架构 , 等 等 。 读 完 本 章 之 后 , 你 应 当 可 以 从 一 个 普 
通用 户 变 成 专业 的 最 小 二 乘法 大 师 。 
上 一 章 中 提 到 了 一 个 用 于 处 理 非 线性 性 的 技巧 : 用 某 个 非 线性 函数 p 对 原 输入 进行 映 
射 ， 然后 在 转换 后 的 输入 空间 里 考虑 一 个 线性 模型 ( 见 4.2 节 )。 虽 然 本 章 讨论 的 话题 适用 
于 一 般 情况 ， 但 是 如 果 你 记得 单一 输入 变量 的 多 项 式 拟 合 (polynomial fit) 这 一 特殊 情况 ， 
有 助 于 你 直觉 上 的 理解 。 在 单一 输入 变量 的 多 项 式 中 ， 非 线性 函数 包含 了 原 输入 的 宕 ,如 下 
所 示 : 









































































































































polz) =g = 1, o1(x) =q! =T, Qalx) =g’, 





这 是 让 人 特别 感 兴趣 的 一 种 方法 , 也 在 现实 中 被 广泛 应 用 ,因此 值得 研究 。 
原始 数据 以 成 对 值 的 方式 给 出 : 
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目标 是 推导 出 函数 f(z), 它 要 近似 地 建 模 Y 对 X 的 依赖 关系 ,以 便 能 在 新 出 现 的 和 未 见 过 
的 z 上 计算 函数 值 。 
学 习 数 据 显著 的 模式 和 关系 ,意味 着 需要 消除 非 显著 的 细节 ， 例 如 测量 噪声 〈 由 物理 测 
量 中 有 限 精 度 导致 的 随机 误差 )。 想 想 如 何 建 模 一 个 人 的 身高 随 着 年 龄 改变 的 趋势 。 如果 你 重 
复 用 高 精密 仪器 测量 你 的 身高 ,那么 每 个 测量 会 得 到 不 同 的 值 。 这 些 带 噪声 的 测量 反映 了 一 
个 简单 的 事实 ， 那 就 是 只 能 用 有 限 的 数位 来 描述 你 的 身高 (没有 哪个 精神 正常 的 人 会 回答 自 
己 的 身高 是 1 823 477 WOK). 
回 到 模型 上 来 , 我 们 并 不 要 求 函数 也 对 噪声 建 模 ,， 也 不 要 求 函数 图 像 准 确 地 经 过 样本 值 
(也 就 是 说 , 不 要 求 对 所 有 的 样本 点 都 有 yi = /zi))。 我 们 并 不 是 做 插值 (interpolation )， 而 
是 拟 合 ( 即 兼容 、 相 似 或 一 致 的 )。 不 完全 保 真 并 不 是 一 个 坏处 ， 相反 还 是 一 个 优势 , 通过 简 
化 分 析 和 人 允许 忽略 一 些 细节 的 推理 论证 , 它 能 够 提供 建立 更 强大 的 模型 的 机 会 。 如 图 5-1 所 
AR, 一 个 插值 数据 集中 所 有 点 的 函数 与 一 个 简单 得 多 的 函数 进行 比较 ， 立刻 可 以 显示 出 这 些 
Ce Oe i BEER 
必要 的 复杂 的 模型 , 简单 的 模型 应 该 是 首选 。 
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图 5-1 ”插值 和 拟 合 的 比较 。 多 项 式 的 自由 参数 (等 于 其 度数 减 1) 从 数据 点 数目 〈 左 图 ) 到 3 






































个 CARD 的 变化 


享有 选择 不 同 模型 的 自由 ,例如 选择 不 同 次 数 的 多 项 式 ， 就 应 肩负 起 评价 不 同 模型 的 优 
劳 这 一 职责 。 评 价 多 项 式 拟 合 的 一 个 标准 方法 来 自 所 得 误差 平方 和 的 统计 。 





























5.1 ” 拟 合 的 优 劣 和 卡 方 分 布 


让 我 们 以 一 个 次 数 为 M 一 1 的 多 项 式 开始 ，M 被 定义 为 次 数 界 (degree bound), 等 于 次 
数 加 一 。M 也 是 自由 参数 的 个 数 〈 多 项 式 中 的 常数 项 也 算 )。 人 们 可 以 寻找 一 个 合适 次 数 的 
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多 项 式 , 它 能 够 最 好 地 描述 这 些 数据 分 布 : 

















M-1 
f(x,c) = co + cx + cox? +++ + emir” = ckx (5.1) 














当 与 参数 c 的 依赖 关系 不 言 自 明 的 时 候 , 为 了 简便 , 只 写 出 f(z)。 因 为 一 个 多 项 式 由 它 
的 M 个 参数 (在 向 量 c 中 ) 确定 ， 所 以 只 需 寻 找 这 些 参数 的 最 优 值 (opticmal value)。 这 是 
我 们 称 为 优化 的 力量 的 一 个 例子 。 一 般 的 方法 是 : 将 问题 形式 化 为 函数 最 小 化 ,然后 借助 优 
化 的 力量 。 
出 于 统计 学 和 最 大 似 然 估 计 的 考虑 , 如 5.2 节 将 要 描述 的 那样 , 卡 方 (chi-square) 评价 函 
数 被 广泛 应 用 于 估计 拟 合 优 度 (goodness-of-fit)。 卡 方 是 从 希腊 字母 派生 的 名 词 , 用 以 表示 一 
个 与 其 相关 的 统计 分 布 x: 
N 2 
e=) (#2) (5.2) 


i=1 













































































如 果 参 数 o; 都 等 于 1， 那么 解释 很 简单 : 这 种 情况 下 ，x2 测量 真实 值 y; 和 模型 估计 值 
f(zi) 之 间 的 平方 误差 和 , 也 就 是 前 一 章 所 描述 的 ModelError(w) o 

然而 ,在 某 些 情况 下 , 不 同 数据 点 的 测量 过 程 可 能 是 不 同 的 ， 人 们 对 于 某 个 测量 的 误差 
oci 有 一 个 估计 , 假设 为 标准 差 。 试想 用 不 同 精 度 的 仪器 进行 的 测量 ， 比 如 使 用 米 尺 和 高 精度 
卡尺 。 
对 于 米 尺 来 说 ， 毫米 级 的 误差 是 可 以 接受 的 ,但 是 对 于 卡尺 来 说 ， 误 差 就 要 远 远 小 于 毫 
米 级 了 , 卡 方 的 定义 就 是 对 这 一 事实 精准 的 数学 表达 方式 : 当 计 算 x? 时 , 误差 必须 拿 来 跟 标 
准 差 进 行 对 比 ( 即 归 一 化 , normalize)， 因此 要 将 误差 除 以 o;。 这 样 得 到 的 结果 是 与 实际 误差 
规模 无 关 的 一 个 数 , 并 且 它 的 含义 是 经 过 了 标准 化 的 。 

现在 有 了 一 个 精确 的 用 归 一 化 的 卡 方 来 衡量 多 项 式 模型 性 能 的 方法 ， 于 是 问题 就 变 成 了 
如 何 找 到 这 些 多 项 式 系 数 来 最 小 化 这 个 误差 。 图 5-2 中 给 出 了 一 个 启发 式 的 物理 学 解释 。 幸 
运 的 是 , 正如 上 一 章 所 提 到 的 , 这 个 问题 可 以 用 标准 的 线性 代数 方法 来 解决 。 

这 里 用 如 下 的 方式 来 完成 分 析 工 作 : 取 偏 导数 a/c HERNIE., HFEF ERM 
cw 的 二 次 函数 , 需要 求解 M 个 线性 方程 : 


ay? N M-1 
D 5 D T im at, k=0,1,---,M-1 (5.3) 
ü i=1 


为 了 缩短 这 个 数学 表达 式 , FT ATT ELS ASA N x MERE A = (aij), 其 中 aij = a} /cis 
包含 了 经 过 o; 归 一 化 之 后 的 zi Wa HARRA E c 和 向 量 b, 其 中 b; = yi/oi。 
很 容易 验证 , 式 (5.3) 中 的 线性 系统 可 以 写成 以 下 紧凑 形式 : 


(AT. A)-c=A™-b (5.4) 
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这 称 为 最 小 二 乘 问题 的 法 方程 (normal equation) 。 


A 





ir? 
图 5-2 ”一 条 直线 的 拟 合 , 有 一 个 物理 的 类 比 : 每 个 数据 点 与 拟 合 直线 间 由 弹簧 连接 。 弹簧 的 强 
度 正比 于 1/o?。 能 量 最 低 的 情况 对 应 于 最 小 的 x? 












































SHEREN C = (AT. A)-1, 则 系数 可 以 通过 c = C. AT.b 得 到 。 有 趣 的 是 ， 如 果 将 系 
数 向 量 c 看 作 随 机 变量 , 那么 C 就 是 它 的 协 方差 矩阵 : C 的 对 角 线 上 的 元 素 是 拟 合 参数 的 方 
差 (不 确定 度 的 平方 ) ex = c2(ci)， 而 那些 非 对 角 线 上 的 元 素 就 是 参数 对 之 间 的 协 方差 。 
矩阵 (AT. AHAT AED SCAB, 我们 在 上 一 章 已 经 遇 到 过 了 , 它 将 线性 方程 组 的 解 从 
最 小 二 乘 误 差 的 意义 上 进行 了 一 般 化 : 
miny? = ||A-c—b|? (5.5) 


cERM 












































若 式 (5.5) 有 一 个 精确 解 , 则 对 应 的 卡 方 为 零 , 并 且 拟 合 曲线 刚好 通过 所 有 数据 点 。 这 种 
情况 的 发 生 要 求 我 们 有 M 个 参数 , 还 要 有 M 个 不 同 的 数据 点 对 (zi, yi)， 这 是 一 个 有 M 个 
线性 方程 和 M 个 未 知 数 的 可 逆 系 统 。 这 种 情况 下 ,我 们 处 理 的 就 不 是 逼近 拟 合 了 ， 而 是 插 
值 。 如 果 没 有 一 个 精确 解 ， 就 像 数 据点 的 个 数 多 于 参数 的 情况 , 广义 逆 矩 阵 给 出 了 一 个 向 量 
c, 这 一 向 量 使 得 从 欧 氏 范 数 的 角度 来 说 , 4.c 离 b 最 近 , 这 是 对 于 近似 解 的 一 个 非常 直观 的 
描述 。 记 住 , 对 于 有 噪声 的 数据 , 一 个 好 的 模型 应 该 是 能 很 好 地 归纳 观察 到 的 数据 , 而 不 是 精 
确 地 重新 产生 它们 ,因此 参数 的 个 数 必 须 《〈 远 ) 小 于 数据 点 的 个 数 。 

上 面 的 推导 不 仅仅 适用 于 多 项 式 拟 合 , 我 们 现在 还 可 以 非常 轻松 地 拟 合 很 多 其 他 类 型 的 
函数 。 尤 其 是 ， WRK eB HEE PAL bn (a) 的 线性 组 合 ， 比 如 : 


M-1 


f(x) = 》 cree (a) 


k=0 
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那么 很 多 工作 都 已 经 完成 了 。 事实 .| 











E, 将 基 函 数 的 值 Qij = b; (ai) /oi ERA 


E 阵 4 中 对 应 的 值 








就 可 以 了 。 因 此 , 我 们 现在 有 了 一 个 拟 合 复杂 函数 的 有 效 方法 ,例如 : 




















f(z) = co + cı cos £ + c2 log £ + c3 tanh z’ 


注意 ,这 些 未 知 参数 必须 以 线性 的 方式 上 








8 现 ， 而 不 能 出 现在 这 些 函 数 的 参数 中 。 例如 , 我 们 没 


法 用 这 种 方法 拟 合 f(x) = exp(—cr), 或 者 f(x) = tanh(x3/c)。 我们 最 多 可 以 尝试 将 这 些 问题 





转化 成 恢复 








基 函 数 的 线性 组 合 的 问题 。 











合 一 个 线性 函数 f (9) = cr, 但 是 这 个 技巧 在 一 般 情况 下 却 起 不 了 作用 。 


图 5-3 


物 线 )。 这 一 曲线 和 数据 点 仅 凭 


So “Ad 


当 实验 


中 展示 了 散 点 图 和 对 应 的 一 条 多 项 式 拟 合 的 












































第 一 种 情况 下 ， 举例 来 说 , 我 们 可 以 用 9; = logy, M 





1 线 ， 这 个 多 项 式 是 二 次 的 〈 一 条 抛 
视觉 上 的 比较 就 已 经 可 以 给 出 拟 合 优 度 〈 卡 方 值 ) 的 一 个 估计 
RIG” Cchi-by-eye) 这 一 方法 就 是 观察 多 项 式 拟 合 的 图 像 , 并 且 根 据 原 数据 的 散 点 
图 来 判断 这 一 拟 合 好 还 是 不 好 。 
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图 5-3 多 项 式 拟 合 : 作为 发 动机 功率 函数 的 车 价 
数据 不 遵循 多 项 式 的 规律 时 ， 用 多 项 式 来 拟 合 3 


























导 。 正 如 前 面 所 阐述 的 ,通过 增加 多 项 式 的 次 数 来 降低 卡 方 值 还 是 可 行 的 





的 移动 自 




















BE, 使 得 它 尽 可 能 接近 实验 数据 点 。 事实 上 , 如果 参 























不 是 很 有 效 ， 甚 至 很 可 能 产生 误 


: 这 将 给 模型 更 多 


数 个 数 等 于 数据 点 个 数 , 这 个 


多 项 式 将 会 以 零 误差 来 插值 这 些 点 。 但 是 这 种 减少 误差 的 方式 将 造成 原始 数据 点 之 间 的 曲线 
产生 剧烈 的 振荡 ,如 图 5-1〈 左 ) 所 示 。 这 种 模型 并 没有 对 数据 进行 归纳 ， 它 在 泛 化 方面 将 面 
临 非常 大 的 困难 。 它 没 法 对 那些 构建 这 一 多 项 式 之 外 的 z 值 所 对 应 的 y 值 进行 预测 。 












































在 统计 学 中 ,如 果 一 个 模型 倾向 于 描述 随机 误差 或 噪声 而 不 是 数据 间 


就 会 产生 过 拟 合 (over fitting) 现象 。 当 一 个 模型 过 于 复杂 时 , 例如 相对 于 可 用 的 数据 量 有 太 























的 基本 关系 ,那么 





多 的 自由 度 (在 我 们 多 项 式 的 例子 中 , 就 是 有 太 多 的 参数 ), 过 拟 合 现象 就 会 产生 。 
一 般 来 说 , 过 拟 合 模型 的 预测 性 能 会 很 差 。 如 果 用 人 类 的 行为 来 打 比 方 , 可 以 想 想 教学 : 


如 果 一 个 学 生 只 关注 并 记 住 老师 在 课堂 上 讲 的 一 些 细 















































节 《 例 如 数学 课 上 茶 个 特定 练习 的 细 
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市 ), 而 不 是 提炼 并 理解 基本 的 规则 和 意义 , 他 只 能 靠 大 记忆 空洞 地 重复 老师 的 学 眼 , 却 无 法 
将 他 的 知识 举一反三 应 用 到 新 案例 上 。 











5.2 ”最 小 二 乘法 与 最 大 似 然 估计 


了 解 广 义 最 小 二 乘 拟 合 的 基本 方法 后 , 现在 从 统计 学 的 角度 来 思考 一 些 附加 的 动机 。 鉴 
于 我 们 有 选择 不 同 模型 的 自由 ， 比 如 拟 合 多 项 式 的 次 数 ， 那么 用 于 辨别 最 佳 模 型 构架 的 方法 
将 是 十 分 珍贵 的 ， 毕 竟 不 能 仅仅 依靠 肤浅 的 “目测 卡 方 ”方法 。 

下 面 是 最 小 二 乘 拟 合 的 过 程 。 

(1) 假设 大 自然 和 实验 程序 (包括 测量 ) 会 产生 独立 的 实验 样本 (zi,y;)。 假 设 y; 的 测量 
直 受 到 了 误差 的 影响 ,这 个 误差 服从 正 态 〈 即 高 斯 ) 分 布 。 
(2) 如 果 模 型 参数 c 是 已 知 的 ， 那么 就 可 以 估计 我 们 测量 数据 的 概率 。 在 统计 学 的 术语 
中 ,这 叫 作 数据 的 似 然 率 Uikelihood)。 

(3) 最 小 二 乘 拟 合 所 找到 的 就 是 使 得 我 们 数据 的 似 然 率 最 大 化 的 参数 。 最 小 二 乘 是 一 种 
最 大 似 然 估计 (maximum likelihood estimator). MAW ERP, 这 使 得 选择 的 模型 和 观察 到 
的 数据 之 间 的 “契合 度 ” 最 大 化 。 

这 种 推演 是 很 直观 的 。 在 此 之 前 ， 你 可 能 想 复习 一 下 高 斯 分 布 ，5.3 节 提 供 了 相关 内 容 。 
对 于 单个 数据 点 , 它 的 位 置 与 测量 值 y; 的 距离 在 区 间 dy 中 的 概率 正比 于 : 


oo > (= -9) ) dy (5.6) 


于 数据 点 是 独立 生成 的 ， 整 个 实验 序列 〈 似 然 性 ) 的 概率 是 单个 概率 的 乘积 : 
= 1 a a) i 


于 我 们 是 求 关 于 ce 的 最 大 值 ， 常 数 因子 ( 像 (dyd) 是 可 以 略 去 的 。 另 外 ,最 大 化 这 个 
似 然 率 等 价 于 最 大 化 它 的 对 数 (对 数 函 数 事实 上 是 它 的 参数 的 一 个 递增 函数 )。 好 吧 ,， 由 于 对 
数 的 基本 性 质 (即将 乘积 转换 成 求 和 、 将 寺 转 换 成 乘积 ， 等 等 )， 当 常数 项 被 略 去 的 时 候 ， 式 
(5.7) 的 对 数 就 正好 是 式 (5.2) 中 的 卡 方 的 定义 。 最 小 二 乘 拟 合 和 最 大 似 然 估计 之 间 的 关系 现 
在 应 该 清楚 了 。 
5.2.1 ”假设 检验 

统计 学 的 假设 检验 可 用 来 评价 模型 的 性 能 。 需 要 问 的 一 个 基本 问题 是 : 考虑 这 N 个 实 
验 数据 点 ， 并 且 给 定 估计 的 M 个 参数 值 ， 大 于 等 于 我 们 测量 的 卡 方 的 值 有 多 大 的 可 能 性 会 
MIEI? 显然 ， 这 个 问题 将 一 个 关于 数据 的 问题 (“测量 这 些 数据 刚好 得 到 这 些 测 量 值 的 
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似 然 率 是 多 大 ”) 用 更 加 精确 的 统计 学 方式 表达 出 来 了 ， 即 “从 拟 合 这 个 模型 的 角度 来 看 ， 另 
一 个 数据 集 比 现 有 数据 集 更 差 的 概率 是 多 少 ”。 如 果 这 个 概率 很 高 ， 那 么 从 统计 学 的 角度 来 
说 , y; 和 f(zi,c) 之 间 的 差异 是 有 意义 的 。 如 果 这 个 概率 很 低 ， 要 么 你 很 不 走运 , 要 么 你 模型 
中 的 茶 些 部 分 不 起 作用 了 : 根据 对 大 自然 和 测量 生成 过 程 的 理解 , 测量 值 和 期 望 之 间 的 误差 太 
大 了 。 

S P 表示 在 给 定 输入 和 输出 集 上 所 选 的 模型 的 卡 方 值 。 这 个 值 服从 一 个 被 称 为 自由 度 
为 v 的 卡 方 OG) 概率 分 布 , 其 中 自由 度 > 确定 数据 集 比 模 型 “< 大 ”了 多 少 。 如 果 假设 误差 服 
从 零 均值 和 单位 方差 ( 记 住 , 我 们 已 经 把 它们 归 一 化 了 ) WESS, 那么 v= NN 一 MM。 一 般 
情况 下 , 正确 的 自由 度 还 取决 于 表达 误差 分 布 (例如 偏 态 ) 所 需 参 数 的 数目 。 因 此 我 们 希望 的 
拟 合 优 度 测 量 可 以 用 如 下 的 参数 Q 来 表示 : 















































































































































Q = Qg = Pr(x7 > $’) 


对 于 一 个 给 定 的 实验 值 和 给 定 的 自由 度 ,，@ 的 值 可 以 计算 , 或 在 相关 的 表 中 查 到 ”。 
缩减 的 卡 方 统计 量 xha 就 是 卡 方 除 以 自由 度 , 在 我 们 的 例子 中 v= N- M. IRRA 
的 优点 是 它 已 经 规范 化 数据 点 的 数量 和 模型 复杂 度 。 下 面 是 一 些 经 验 法 则 。 
。 如果 o 是 测量 噪声 的 合理 的 估计 并 且 模 型 也 很 合理 , 值 x2 = 1 就 是 我 们 期 望 的 。 
。 如果 x2,4 的 值 太 大 , 意味 着 你 低估 了 你 的 误差 来 源 , 或 模型 拟 合 得 不 是 很 好 。 如 果 你 
信任 你 的 o 也 许 增加 多 项 式 的 次 数 可 以 改进 结果 。 
。 最后， 如果 ka AD, 那么 模型 f(z) 和 数据 (xi, ys) 之 间 的 契合 会 好 得 可 疑 。 我 们 可 
能 处 于 图 5-1 左 图 所 示 的 情况 。 该 模型 “过 度 ” 拟 合 数 据 : 模型 不 恰当 地 拟 合 噪声 , 或 
误差 方差 已 被 高 估 。 我 们 应 该 试 着 减少 多 项 式 的 次 数 “。 
自由 度 > 会 随 着 模型 参数 数量 的 增加 而 降低 , 在 我 们 比较 参数 个 数 不 同 的 模型 时 , 它 的 
重要 性 将 变 得 明显 。 正 如 前 文 提 到 的 ， 通 过 增加 参数 个 数 来 降低 卡 方 值 是 很 容易 的 。 使 用 Q 
值 来 测量 拟 合 优 度 就 把 这 个 效应 也 考虑 进去 了 。 相 对 于 一 个 误差 很 小 但 有 大 量 参 数 的 模型 ， 
卡 方 值 更 大 (误差 更 大 ) 的 模型 可 能 会 产生 更 高 的 8 值 (也 就 是 更 好 )。 
使 用 拟 合 优 度 Q 度量 , 可 以 对 不 同 的 模型 进行 排名 , 然后 选择 最 合适 的 那个 。 这 一 过 程 
现在 听 上 去 是 明确 的 ,而 且 是 量化 的 。 如 果 你 正在 进行 一 个 多 项 式 拟 合 ,现在 可 以 用 不 同 的 
次 数 来 重复 这 一 过 程 , 测量 Q 并 选择 最 合适 的 模型 架构 (最 合适 的 多 项 式 的 阶 )。 
但 魔 购 藏 在 细 三 里 当 假 设 正确 的 时 候 ,， 也 就 是 o; 是 已 知 的 、 合 适 的 并 且 独 立 的 时 候 ， 
这 一 机 制 才 会 是 有 用 的 。 顺便 提 一 下 , 对 于 不 熟练 的 用 户 而 言 , 要求 o 值 可 能 令 人 困惑 。 你 


© 准确 的 公式 为 
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Soke, oe ee TA Pat 
Qi = Pr(xp >x°) = (28T (7)) Í; t2 e 2 dt 
在 CPU 处 理 能 力 廉 价 的 时 代 , 这 是 非常 容易 计算 的 。 
@ 皮尔 进 的 卡 方 测试 为 评估 拟 合 质 量 提供 了 客观 的 阔 值 , 基于 X2 值 、 参 数 和 数据 点 的 数目 以 及 所 需 的 置信 水 平 ， 如 
5.2 节 所 述 。 
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需要 谨慎 行事 : 当 假 设 错误 时 , 统计 就 是 一 个 雷 区 ， 














BL Ee Hi 
5.2.2 ”交叉 验证 

目前 为 止 , 我 们 展示 了 “历史 j 
计算 是 





估计 误差 线 ， 也 能 估 
































并 且 一 个 错误 的 假设 可 以 使 


整个 论证 


aE 














E” AAR, 统计 学 在 计算 机 问 








分 遇 贵 的 。 幸 运 的 是 ， 如 今 丰 富 的 计算 资源 使 更 强大 的 技术 得 以 使 月 


上 世 很 久 以 前 就 诞生 了 ,当时 
日 ， 这 些 技术 能 




















计 你 的 模型 及 其 预测 的 置信 和 度 。 这 些 方法 不 需要 高 深 的 数学 ,它们 

















RAS, FER, FP ALA 


尤其 是 3.2 H 























E 往 对 于 不 同 的 误差 








分 布 都 具有 健壮 性 。 

















P 提 到 的 交叉 验证 方法 , 它 可 以 被 用 来 选择 最 佳 的 模型 。 和 往常 一 术 





把 一 些 测 袋 























HEBER 
误差 , 重复 











的 想法 是 
来 估计 新 实例 上 的 
ERIH 


以 是 一 个 健 ) 
昌 ,， 并 人 允许 断言 ， 























KE 
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稳定 性 的 信 ， 

















> 





范围 之 内 。 推 导 性 能 估计 的 误差 线 的 问题 
E 导 误差 线 的 问题 , 将 在 下 一 节 探讨 。 








数值 














5.3 ”置信 和 度 的 自助 法 
想象 一 下 ,大 自然 从 





然 独立 同 分 布地 随机 选择 r JF 
最 小 二 乘法 ,你 可 以 从 提供 的 一 对 对 (zi, ys) A 


Ate) eR 
让 大 目 然 新 产生 一 些 数据 ， 





H 





1L 次 并 对 结果 求 平 均 。 如 果 数 据 足 够 
定 最 优 模型 架构 的 方式 。 不同 折 数 的 交叉 验证 的 结 
以 给 定 的 概率 (置信 和 度 ), 预计 的 泛 化 结果 将 在 一 个 给 定 的 怕 
或 从 更 一 般 的 层面 上 讲 , 为 从 数据 




















个 真实 的 以 c 为 参数 的 多 项 式 中 产 4 
日 根据 式 (5.1) 和 误差 e 产生 Yi = f (xi, C) + eo 














相反 , 你 更 有 可 能 得 到 一 个 不 同 的 cO, 然后 是 c, DAKAR HE. 








运行 一 次 估 值 程序 然后 就 





JLK, 你 可 以 得 到 系数 的 平均 值 ， 估 计 误 差 线 (error bar)， 甚 至 可 以 使 用 不 同 的 模型 # 








用 你 所 得 到 的 c(0)， 这 是 不 公平 





日 其 他 的 测量 来 确定 这 个 模型 ,然后 将 它们 从 


g ale 


A 吓 




















E, 基本 


Li 
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做 
AX 


Fe ey 
富 ， 这 些 泛 化 的 估计 可 
果 分 布 提供 了 有 关 估 计 
EAE 


E 何 























估计 的 人 








E 数 据 〈 输 入 -输出 对 )。 大 上 自 








和 定 最 大 似 然 值 c. WR 








HI ff 























重复 上 面 估 值 的 过 程 ， 你 没 法 保证 会 再 一 次 得 到 同样 的 c(0) 值 。 





的 。 如 果 能 将 这 一 程序 多 运行 
且 对 

















它们 的 结果 求 平均 (集成 或 者 民主 的 方法 将 在 下 一 章 讨论 )。 误差 线 允 许 你 量化 估计 中 的 置信 
E, 这 样 你 就 可 以 说 : 以 “90% (或 者 你 决定 的 任何 置信 和 度 ) 的 
到 c+B 之 间 的 一 个 值 ， B 是 估计 的 误差 线 ”” 或 者 以 “99% N 


在 我 们 的 置信 区 间 内 ”。 当 使 
真 产 生 的 数据 ， 这 种 重复 和 
法 ,依赖 于 重复 随机 
































一 个 真实 的 赌场 里 的 情况 。 这 个 名 称 来 自 摩 纳 哥 公国 的 蒙特 卡 罗 镇 ， 它 是 拉 斯 


版 本 。 





随机 化 的 过 程 
由 样 ， 以 获取 数值 计算 结果 ， 即 通过 运行 多 次 模拟 ， 就 像 播放 和 录制 在 




















被 称 为 蒙特 卡 罗 实 验 。 























WR, AM c; 是 在 区 间 c- B 
的 置信 和 度 确信 这 个 参数 的 真 值 






































模型 的 时 候 ， 类 似 的 误差 线 可 以 在 预测 的 y 值 上 得 到 。 对 于 念 





蒙特 卡 罗 方 法 是 一 类 计算 算 























任 加 斯 的 欧洲 








Q@ 作为 一 个 侧面 观察 ， 如 果 知 道 误差 线 是 0.1， 你 会 避免 小 数 点 后 的 数字 太 多 。 如 果 估 计 你 的 身高 ， 请 不 要 写 
“182.326548435054 厘米 ”， 精 确 到 182.3 厘米 (加 上 或 减 去 0.1 MX) EER. 
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另 一 方面 ,大 自然 , 即 生成 数据 的 过 程 ， 只 能 提供 一 组 测量 数据 ， 由 于 反复 测量 代价 过 
于 昂贵 而 无 法 负担 。 只 对 同一 组 数据 采用 不 同 的 随机 估计 ， 怎 样 才能 尽 可 能 利用 好 呢 ? 一 开 
台 ， 它 看 起 来 是 序 雇 而 不 可 能 的 任务 。 类 似 的 苑 廖 曾 出 现 于 “ 令 人 惊讶 的 奇遇 记 ” 里 , 敏 聚 生 
男 荔 提 着 头发 把 自己 和 马 从 水 坑 里 拉 起 来 ( 见 图 5-4), 为 了 效仿 他 ,可 以 尝试 “ 搜 着 提 鞋 带 
(bootstrap) 把 自己 拉 过 篇 多 ”因此 术语 自助 法 (bootstrapping) 的 现代 意义 是 描述 一 个 自给 
自足 的 过 程 。 































































































图 5-4 敏 罕 生男 姻 提 着 头发 把 自己 和 马 从 水 坑 里 拉 起 来 


好 吧 ， 结 果 还 真有 一 种 使 用 一 组 测量 就 能 模仿 真实 的 蒙特 卡 罗 方法 的 手段 。 它 可 以 通过 
构建 一 些 观 测 到 的 数据 集 的 〈 同 样 大 小 的 ) 再 抽样 (resample) 来 实现 。 每 一 个 新 的 样本 可 以 
通过 随机 有 放 回 抽样 (random sampling with replacement) 来 得 到 , 这 样 同一 个 实例 可 能 被 多 
次 取 到 ( 见 图 5-5)。 根 据 简单 的 数学 知识 ,对 于 很 大 的 实例 数 N， 大约 有 37% (实际 上 大 约 
为 1/e) 的 实例 不 会 出 现在 一 个 抽样 里 ， 因 为 它们 都 被 某 些 原始 实例 的 多 个 副本 代替 了 O 

对 于 每 个 新 的 第 i 个 再 抽样 ， 重 复 拟 合 过 程 ,， 会 得 到 很 多 模型 参数 的 估计 值 ce。 然后 人 
们 可 以 分 析 各 个 估计 是 如 何 分 布 的 ， 使 用 观察 到 的 频率 来 估计 一 个 概率 分 布 ， 并且 总 结 出 一 
个 带 置信 区 间 的 分 布 。 例 如 , 将 置信 水 平 固 定 在 90% 之 后 ， 人们 可 以 确定 c 的 中 位 数 周围 的 
一 个 区 间 , 一 个 估计 的 e 以 0.9 的 概率 落 在 这 个 区 间 内 。 视 复杂 程度 而 定 , 一 维 以 上 的 置信 
区 间 可 以 是 一 个 长 方形 的 区 域 或 一 些 更 具 灵 活性 的 区 间 ， 如 椭圆 形 。 图 5-6 给 出 了 一 个 一 维 
(需要 估计 一 个 单一 参数 c) 的 置信 区 间 的 例子 。 注意, 对 于 任意 的 分 布 都 可 以 求 得 置信 区 间 ， 
O 尽管 有 着 人 蛮 力 的 快速 上 手 的 外 表 ，, 自助 法 在 统计 学 家 中 越 来 越 享有 声誉 。 其 基本 思想 是 , 实际 的 数据 集 被 视 为 包 
一 组 狄 拉 克 脉 冲 (Dirac delta) 函数 的 某 概率 分 布 上 的 测量 值 , 在 多 数 情况 下 是 原 概 率 分 布 的 最 优 估计 1831 
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不 必 非 得 是 


ESKA, 





图 5-5 


图 5-6 








日 置信 区 间 不 一 定 是 关于 中 位 数 对 称 的 。 


























(概率 预 估 ) 





置信 区 间 : ANKY 


XK 


Ba ol B a, 





自助 法 : 将 10 个 球 以 均匀 概率 放 在 10 SAT 



































现在 自助 样本 里 (实例 1 



































90% 置信 区 间 





且 。 自 助 法 决定 哪些 实例 和 多 少 副 本 出 
有 两 个 副本 ,实例 2 有 一 个 副本 ， 


实例 3 没有 副本 , 等 等 ) 




















Ec 估计 值 的 分 布 的 直方 图 中 , 可 以 推导 出 
































例 。 也 可 以 使 用 


Lf 
与 20 的 历史 概率 








也 的 1 





值 ) 


置信 水 








平均 值 区 域 周 围 90% 的 实 








É, 像 68.3%, 95.4% 等 CEI 


附录 : 绘制 置信 区 间 ( 百 分 位 值 和 箱 形 图 》 


一 个 用 于 分 析 估 计 参 数 分 布 的 快速 上 手 方法 是 使 用 直方 图 (对 在 一 个 区 间 集 合 内 的 值 的 









































E 态 分 布 的 情况 下 对 应 于 o 
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频率 进行 计数 )。 在 某 些 情况 下 , 直方 图 包含 多 于 所 需 的 信息 , 并 且 这 些 信息 不 容易 解释 。 一 








个 用 来 
平均 值 


| 





fa St 






























































画 某 个 值 的 分 布 的 紧凑 方法 是 用 它 的 平均 值 po 给 定 一 个 包含 NN 个 值 WRAY, 


N 
p(X) = (>: z) /N, Li, N E Æ (5.8) 














这 个 平均 值 被 称 为 期 望 值 ， 或 者 数学 期 望 ， 或 者 均值 ， 或 者 一 阶 窍 (first moment)， 并 且 也 用 
不 同 的 记号 来 表示 , 例如 互 或 者 E(x) 

一 个 相关 但 是 又 不 同 的 数值 是 中 位 数 , 它 的 定义 是 将 样本 分 成 大 的 一 部 分 和 小 的 一 部 分 
的 那个 数 。 给 定 一 个 有 限 的 数值 列表 ， 可 以 将 所 有 这 些 观测 值 从 大 到 小 排列 ， 中 位 数 就 是 中 





























间 那 个 。 如 果 有 一 些 离 群 值 















































(outlier， 离 大 多 数值 非常 远 的 数据 )， 那么 中 位 数 比 平均 值 更 具 





有 健壮 性 , 平均 值 受 这 些 离 








单 值 的 影响 很 大 。 相 反 , 如 果 数 据点 聚集 在 一 块 , 就 像 由 正 态 分 布 




















所 产生 的 那样 ， 平 均值 就 趋 
般 化 : 一 定 百分比 的 观测 值 ; 


























向 于 与 中 位 数 重合 。 通 过 考虑 百 分 位 数 ， 可 以 将 中 位 数 的 定义 一 














秆 小 于 这 个 变量 值 。 那 么 第 10 百 分 位 数 就 是 有 10% 的 观测 值 小 














于 这 个 数 。 四 分 位 数 是 一 种 特殊 情况 , 包括 下 四 分 位 数 (第 25 百 分 位 数 )、 中 位 数 和 上 四 分 位 
数 (第 75 百 分 位 数 )。 四 分 位 差 (IQR), 又 称 为 中 间 离 差 (midspread) 或 者 中 间 五 十 (middle 


























fifty)， 是 一 个 统计 分 布 的 测量 , 等 于 第 一 个 四 分 位 数 和 第 三 个 四 分 位 数 的 差 。 


箱 线 图 ,又 称 为 盒 须 图 ， 
下 四 分 位 数 (Q1)、 中 位 数 ( 
同样 可 以 指出 某 些 观测 值 是 


























通过 展示 5 个 数字 来 总 结 数值 集 : 最 小 的 观测 值 (样本 最 小 值 )、 
Q2)、 上 四 分 位 数 (Q3) 和 最 大 的 观测 值 (样本 最 大 值 )。 箱 线 图 






























































的 底部 和 顶部 总 是 上 下 四 分 
干 不 同 的 值 , 例如 : 




















e 数据 的 最 大 值 和 最 小 值 ; 


离 群 值 (如果 有 的 话 ), 通常 用 圆圈 表示 出 来 。 在 箱 线 图 中 , 箱子 



































位 数 ， 靠 近 箱 子 中 间 的 那 一 杠 总 是 中 位 数 。 须 的 两 端 可 以 表示 若 

















e 数据 中 大 于 及 小 于 平均 值 一 个 标准 差 的 值 ; 
。 第 9 百 分 位 数 和 第 91 百 分 位 数 ; 














图 5-7 展示 了 一 个 箱 线 图 和 1.5 IQR 的 须 , 这 是 通常 (默认 ) 的 值 ， 当 数据 符合 正 态 分 布 


时 ， 它 对 应 着 +2.70 和 99.3 





在 盒 须 的 范围 之 外 ,这 是 一 个 识别 可 能 的 离 群 值 的 实用 标志 。 前 文 提 到 过 ， 离 群 值 是 一 个 显 


车 偏离 包含 它 的 样本 中 其 他 























% 的 面积 。 换 句 话说 , 对 于 一 个 高 斯 分 布 , DF 1% 的 数据 将 落 






























































成 员 的 观测 值 。 在 任何 分 布 中 ， 离 群 值 都 有 可 能 存在 ,但 是 它们 
























































应 该 丢弃 这 些 离 群 值 或 者 使 
符 依 赖 于 正 态 分 布 假设 的 了 























通常 要 么 表示 测量 误差 , 要 么 总 体 服从 重 尾 分 布 (heavy-tailed distribution ) 。 前 一 种 情况 下 ， 

















aw 


真 对 




















用 对 离 群 值 有 健壮 性 的 统计 ; 在 后 一 种 情况 下 ， 人 们 需要 说 


只 和 直觉 。 
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Al5-7 WARMI 





FE 态 分 布 之 间 








+H, 68.27% WAAN 














的 比较 , 横 轴 表示 相对 于 标准 偏差 o 的 位 置 。 例如 , 在 底部 的 图 














E 离 平均 值 的 一 个 标 ; 


E2 o 范围 内 
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E M 


多 项 式 拟 合 以 一 种 特定 的 方式 使 用 线性 系数 模型 Clinear-in-the-coefficients model) 来 
处 理 非 线 性 问题 。 该 模型 包括 (待定 ) 系数 的 线性 加 权 和 乘 以 原始 的 输入 变量 的 积 。 如 果 
积 被 蔡 换 为 输入 变量 的 任意 函数 ,， 相同 的 技术 也 可 以 使 用 , 只 要 这 个 函数 是 固定 的 (函数 
中 没有 自由 参数 , 仅 作 为 乘法 系数 )。 通 过 最 小 化 平方 误差 来 确定 最 优 系 数 , 这 就 意味 着 求 
解 一 组 线性 方程 组 。 如果 系 数 的 数目 大 于 输入 -输出 实例 数 , 会 出 现 过 拟 合 (over-fitting)， 
用 这 样 的 模型 来 推断 新 输入 值 的 输出 结果 是 危险 的 。 

多 项 式 拟 合 的 优 度 (goodness of a polynominal fit) 可 以 通过 预测 观察 到 与 实测 数据 的 
差异 的 概率 来 评价 (给 定 了 模型 参数 后 数据 的 似 然 率 )。 如 果 这 个 概率 很 低 , 那么 不 应 该 太 
过 于 信任 该 模型 。 但 关于 误差 如 何 生成 的 错误 假设 容易 导致 我 们 得 出 过 于 乐观 或 过 于 悲观 
的 结论 。 统 计 从 假设 开始 建立 坚实 的 科学 建筑 。 如 果 建 立 在 无 效 假设 的 沙土 上 ,即使 最 坚 
实 的 统计 建筑 也 会 倒塌 粉碎 。 幸 运 的 是 ,基于 可 行 性 强 的 大 规模 计算 的 方法 〈 例 如 交叉 验 
UE) 是 容易 理解 的 , 并 且 具 有 健壮 性 。 

像 自助 法 (bootstrapping) MP “eB” MATA (对 同一 数据 进行 带 放 回 的 再 抽样 ,并 
以 蒙特 卡 罗 的 方式 重复 估计 过 程 ), 可 以 用 于 获取 估计 的 参数 值 周围 的 置信 区 间 。 

你 不 过 是 最 大 化 了 自己 被 当成 线性 最 小 二 乘法 大 师 的 概率 。 


































































































第 6 章 规则、 决策 树 和 和 森林 


如 果 森 林 中 的 一 棵 树 倒 下 了 ,但 是 没有 人 听见 ,那么 它 是 否 
发 出 了 声音 ? 








规则 是 一 种 将 知识 模块 用 让 人 易于 理解 的 方式 结合 起 来 的 方法 。 如 果 “ 客 户 很 富有 ”, 那 


么 “他 将 会 购买 我 的 产品 ”。 如果“ 体温 超过 37 摄氏 度 ” 那么 “这 个 人 生病 了 ”。 决策 规则 普 











遍 应 用 于 医疗 、 银 行 和 保险 领域 ， 以 及 与 客户 打交道 的 特定 流程 中 。 











在 一 条 规则 








P, 人 们 区 分 前 件 或 前 提 (一 系列 测试 ) 和 后 件 或 结论 。 结论 是 对 应 输入 并 使 














得 前 提成 立 的 输出 类 别 ; 如 果 类 别 不 能 100% 确定 , 就 给 出 这 些 类 别 的 概率 分 布 。 通常 , 这 些 


前 提 都 是 用 “ 且 ” 














连接 起 来 的 , 也 就 是 说 , 如 果 我 们 要 “发 射 ” 这 条 规则 , 即 得 到 结论 , 那么 所 














有 测试 都 必须 通过 。 如 果 “ 距 离 小 于 2 RWE” HER”, 那么 “步行 ”。 一 条 测试 可 以 针对 类 














型 变量 的 值 (“了 晴 























KR”), 或 者 数值 变量 简单 运算 的 结果 (“距离 小 于 2 英里 ”)。 如 果 想 要 让 人 





























理解 ,计算 就 必须 简单 。 一 个 实用 的 改进 是 将 前 提 为 假 时 的 分 类 也 加 入 到 同一 个 语句 中 。 如 
果 “ 距 离 小 于 3 公里 ” 且 “ 没 有 私家 车 ”， 那么 “步行 ”， 和 否则 “ 坐 公交 车 ”。 

提取 知识 模块 形成 一 个 简单 规则 的 集合 是 诱 人 的 。 但 是 手动 设计 和 维护 规则 是 昂贵 且 困 
难 的 。 当 规则 集 变 大 时 , 复杂 性 就 会 显现 ， 就 像 图 6-1 中 的 规则 会 导致 不 同 的 甚至 矛盾 的 分 
类 。 在 这 些 情况 下 ， 分 类 可 能 与 不 同 规则 在 数据 上 进行 测试 的 排列 顺序 有 关 。 从 数据 中 自动 
提取 不 矛盾 的 规则 的 方法 是 很 宝贵 的 。 

相 比 处 理 带 很 多 测试 的 非常 长 的 前 提 ， 将 规则 分 解 成 一 串 简 单 的 问题 更 有 价值 。 在 贪心 








































































































法 中 , 那些 信息 量 最 大 的 问题 最 好 放 在 这 一 序列 的 前 面 , 这 样 可 以 给 问题 加 上 层次 结构 , 从 信 
息 量 最 大 的 问题 到 信息 量 最 小 的 问题 。 如 上 这 些 动 机 很 自然 的 让 我 们 考虑 到 决策 树 (decision 





第 6 章 规则 、 决 策 树 和 森林 51 





tree), 它 是 决策 规则 的 有 组 织 的 分 层 排列 , 并 且 没 有 矛盾 ( 见 图 6-2 上 图 )。 
输入 数据 规则 


E B 
6-1 一 套 非 结构 化 规则 会 导致 矛盾 的 分 类 

















图 6-2 ”决策 树 CERD, 以 及 同一 棵 树 中 达到 分 类 的 一 种 情况 (下 图 )。 抵达 拆 分 节点 的 数据 点 
根据 测试 函数 的 结果 被 发 送 到 其 左 子 节点 或 右 子 节点 
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决策 树 在 机 器 学 习 (ML) 诞生 之 初 就 非常 普及 了 。 现 在， 确实 只 有 小 而 浅 的 树 能 够 被 人 
们 “理解 ”但 是 近年 来 由 于 计算 和 存储 能 力 的 极 大 提升 , 决策 树 的 普及 度 越 来 越 广 了 。 很 多 
树 (在 某 些 情况 下 可 达到 上 百 棵 ) 可 以 组 合 使 用 ， 称 为 决策 森林 (decision forest), 来 得 到 具 
有 健壮 性 的 分 类 器 。 当 考虑 森林 时 ， 关心 人 们 是 否 能 理解 这 一 问题 被 移 至 幕后 , 务实 地 寻找 
没有 过 度 训 练 风险 的 、 具 有 健壮 性 的 高 性 能 表现 成 为 台 前 的 主角 。 


































































































6.1 构造 决策 树 


决策 树 是 以 层次 的 方式 组 织 起 来 的 一 个 问题 集 ， 并 且 用 一 棵 树 的 图 形 来 表示 。 由 于 历史 
的 原因 , 机 器 学 习 中 的 树 , 如 同 所 有 在 计算 机 科学 领域 中 的 树 那样 , 常常 把 根 画 在 上 方 
果 你 在 北半球 ， 那 就 想象 澳大利亚 的 那些 树 。 对 于 一 件 给 定 的 事物 ,决策 树 通 过 连续 地 提出 
关于 其 已 知 属性 的 问题 来 估计 它 的 一 个 未 知 属 性 。 下 一 个 问题 问 什 么 取决 于 前 一 个 问题 的 答 
案 , 如 果 用 图 形 来 表示 , 这 一 事物 对 应 于 这 棵 树 中 的 一 条 路 径 , 如 图 6-2 下 半 部 分 的 粗 线条 所 
显示 的 。 决 策 则 根据 这 条 路 径 的 终端 节点 来 做 出 。 终 端 节 点 称 作 叶 子 。 决 策 树 可 以 被 看 作 将 
杂 问 题 分 解 为 简单 问题 集 的 一 种 方法 , 分 解 过 程 在 这 个 问题 已 是 够 简单 ， 即 已 到 达 叶 子 节 
点 并 找到 已 有 的 答案 时 结束 。 
一 个 从 已 标记 的 实例 来 构造 决策 树 的 基本 方法 是 按照 贪心 法 来 进行 的 : 在 层次 结构 中 ， 
言 息 量 越 大 的 问题 就 越 靠 前 。 考 虑 一 下 初始 的 被 标记 的 实例 集 。 一 个 有 两 个 可 能 输出 (“是 ” 
或 “ 否 ”) 的 问题 将 这 一 实例 集 分 为 两 个 子 集 ， 其 中 一 个 子 集 包 括 答案 为 “是 ”的 实例 ， 另 一 
个 子 集 包括 答案 为 “ 否 ” 的 实例 。 初始 的 实例 集 是 混乱 的 , 包含 不 同类 的 实例 。 当 问 完 一 串 问 
rl, 从 根 到 了 叶子 时 , 叶子 中 余下 的 集合 就 应 该 几乎 是 “ 纯 ” 的 了 , 也 就 是 只 包含 同一 类 的 实 
例 。 这 一 类 别 也 就 是 所 有 到 达 这 片 叶 子 的 实例 所 对 应 的 输出 。 
我 们 需要 从 初始 的 混乱 的 集合 过 渡 到 最 终 一 系列 〈 几 乎 ) 纯 的 集合 。 一 个 瞄准 这 一 目标 
的 贪心 法 就 是 从 “信息 量 最 大 的 ”问题 开始 。 这 会 把 初始 的 集合 划分 为 两 个 子 集 , 分 别 对 应 答 
案 “ 是 ”或 “ 否 ” 也 是 初始 根 节点 的 子 节 点 〈 见 图 6-3)。 贪 心 法 将 以 尽 可 能 接近 最 终 目 标 这 一 
原则 迈 出 第 一 步 。 在 贪心 法 中 , 第 一 个 问题 的 设计 要 使 得 这 两 个 子 集 尽 可 能 纯净 。 第 一 次 划 
分 完成 之 后 ， 以 递归 的 方式 ( 见 图 6-4), 继续 对 左右 两 个 子 集 使 用 同样 的 方法 , 设计 合适 的 问 
wl, 如 此 重复 , 直到 剩 下 的 集合 足够 纯净 , 递归 停止 。 完 全 的 决策 树 是 由 一 个 从 上 到 下 的 过 程 
导出 的 , 这 一 过 程 通过 在 创造 的 子 集中 实例 的 相对 比例 来 引导 。 
决策 树 的 两 个 最 主要 的 组 成 部 分 , 一 是 纯度 的 定量 度量 , 二 是 每 个 节点 问 的 问题 的 类 型 。 
我 们 都 同意 纯度 最 大 值 是 在 子 集 中 只 有 一 个 类 别 的 实例 时 取 到 ， 而 不 同 的 度量 负责 测量 那些 
\ 只 一 个 类 别 的 情况 。 其 他 的 组 成 部 分 与 终止 条 件 有 关 : 记 住 我 们 的 目标 是 泛 化 , 因此 我 们 不 
希望 构造 一 棵 非常 大 的 树 ， 而 每 片 叶 子 只 有 一 两 个 实例 。 某 些 情况 下 ， 我 们 允许 在 子 集 尚 未 
达到 十 分 纯净 时 停止 训练 , 并 且 当 一 些 实例 到 达 某 个 给 定 的 叶子 节点 时 , 输出 一 个 概率 值 。 
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原始 实例 集 
〈 按 叶子 是 深 色 还 是 浅 色 分 类 ) 

















图 6-3 纯化 集 (两 个 类 的 实例 ) : 问题 2 产生 的 子 节点 的 实例 子 集 更 纯净 























图 6-4 树 构 建 中 的 递归 步 又 : 经 过 问题 2 初步 纯化 后 , 将 同样 的 方法 应 用 在 左边 和 右边 的 实 
例子 集 上 。 在 这 个 例子 中 , 问题 3 就 足以 完全 净化 这 些 子 集 。 不 需要 在 纯 子 集 上 执行 额 
外 的 递归 调用 


在 下 面 的 描述 中 ， alee eau 别 变 量 ( 即 名 称 , 像 上 面 例子 中 的 “欧洲 
人 ”)。 还 有 两 种 广泛 使 用 的 子 集 纯度 一 是 信息 增益 (information gain)， 二 是 基尼 混 
度 (Gini impurity). ee renee 是 有 监督 分 类 ， 因 此 我 们 知道 这 些 训练 实例 的 正确 输出 


类 。 





























































































































站 














信息 增益 ”设想 我 们 从 一 个 内 部 节点 或 叶子 节点 对 应 的 集合 中 进行 抽样 。 我 们 得 到 y 类 
实例 的 概率 Pr(y) 正比 于 集合 中 该 类 实例 所 占 的 比例 。 所 得 类 的 统计 不 确定 性 由 标记 概率 分 
布 的 香农 炉 来 度量 : 


























一 》 Pr(y) log Pr(y (6.1) 
yeY 


*E =: 5 
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规则 、 决 策 树 和 森林 








在 信息 论 中 , IHG TARE RPE PE AA 
县 CUBE I 的 单位 是 二 进 























E 所 需 的 平均 信息 ( 见 图 6-5)。 如 果 对 数 的 底 为 2, 信 
由 位 (pit)。 当 所 有 n 个 类 





别 的 实例 均 分 了 一 个 集合 时 , A 


到 最 大 值 ， H(Y) = logn; 而 当 所 有 实例 都 属于 同一 类 别 时 (这 种 情况 下 ,不 需要 任何 信息 ， 
我 们 已 经 知道 我 们 会 得 到 什么 类 别 了 ), WGI BMA, H(Y) = 0. 






























































A A 
下 i ae Ste ees cent 
a i > 
1 2 本 n 类 1 2 as n 类 
图 6-5 BEZIRK RRRA. Tenth CAC): 事件 有 相似 的 可 能 性 ,不 确定 性 接近 最 高 
dogn). RAI E): 事件 有 非常 不 同 的 可 能 性 , 不 确定 性 非常 小 , 接近 零 ,因为 某 个 事 
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知道 
示 目 前 的 实例 集 ， 









































牛 占 了 大 多 数 的 概率 
在 信息 增益 方法 中 , RARR SR Al LS 9} Th BR EE 























AN ALLIS SRS SI, IME AR, 仅 当 答案 不 取决 于 类 别 时 。 SS 表 

















并 且 让 S = SyEs U Sno 表示 问 过 一 个 关于 某 











属性 问题 之 后 的 划分 。 理 想 的 








问题 不 会 留 下 难以 决策 的 情况 : Syps 中 所 有 实例 是 一 类 , 而 SNo 中 所 有 实例 是 另 一 类 , 因此 





这 两 个 生成 的 子 集 焙 为 零 。 
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信 ， 


i (MI)。 信 息 增益 (互信 息 ) 可 




















外 增益 ”， 它 也 是 答案 与 类 别 变 量 之 间 的 互 
表述 如 下 : 
S S 
16 = (8) ~ Elu Syes) - Aol (S30) (6.2) 
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信息 增益 是 由 Quinlan 率先 在 ID3、C4.5 和 C5.0 方法 中 使 用 的 [89] 。 值 得 














于 我 们 感 兴趣 的 是 泛 化 , 信息 








注意 的 是 ,由 

















增益 对 此 是 有 用 的 ， 但 # 








不 完美 。 假 设 我 们 为 描述 某 项 业务 客 








户 的 数据 构造 一 棵 决策 树 ,每 个 证 点 可 以 有 多 于 两 个 子 节 点 。 
属性 唯一 地 标识 每 个 客户 ， 所 以 它 与 任何 





用 卡号 码 。 因 
我 们 不 希望 将 





为 这 一 























包含 在 决策 树 中 : 根据 客户 的 信和 月 









































不 太 可 能 
基尼 混 度 

















E 广 到 之 前 没有 见 过 的 客户 (这 就 是 过 拟 合 )。 
试想 一 下 , 我 们 从 一 个 集合 中 随机 

















卡号 码 来 对 客户 作出 相应 决策 , 这 一 做 法 


个 输入 属性 可 能 是 客户 的 信 
分 类 都 有 很 高 的 互信 息 ， 然 而 



































I 取 一 个 元 素 , 并 随机 贴 上 标签 ， 概率 正 





比 于 不 同类 别 在 这 个 集合 中 所 占 的 比例 。 尽管 这 种 方法 看 起 来 很 原始 ， 如 果 集 合 是 纯 的 ， 这 
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种 简单 直接 的 方法 的 误差 为 零 ， 如 果 某 个 类 别 在 集合 中 占据 了 主要 部 分 ， 这 种 方法 的 错误 率 
也 是 很 小 的 。 

一 般 情况 下 , 基尼 混 度 (GI) 测量 从 集合 中 随机 选择 的 元 素 会 被 错误 地 标记 的 频率 , 标记 
是 按照 集合 中 标记 的 分 布 随机 进行 的 “。 它 可 以 用 错误 率 的 期 望 来 计算 : 对 于 每 个 类 别 ， 将 










































































加 ， 再 乘 以 该 元 素 属 于 该 类 别 的 概率 (p;), 然后 将 这 些 乘 积 加 起 来 。 假设 有 mm 个 类 , FFAS 
fi 表示 集合 中 标记 为 i 的 元 素 比 例 。 然后 , 通过 频率 来 估计 概率 (pi & fi): 






































m m m 


GI(f) = AG -f) = -f) = -ALA (6.3) 
i=1 =l {=l i=1 i=l 
当 节 点 中 所 有 实例 都 属于 单一 目标 类 别 时 ，GI 为 最 小 值 ( 零 )。GI 被 用 在 Breiman 提出 的 
CART 算法 〈 分 类 回归 树 ) 中 P, 
当 考 虑 每 个 节点 所 问 的 问题 类 型 时 ， 实 际 上 只 需要 考虑 那些 有 二 元 输出 的 问题 就 足够 
了 。 对 于 类 别 变量 ， 这 个 测试 可 以 基于 该 变量 的 可 能 值 的 某 个 子 集 (例如 ， 若 某 天 是 “星期 
六 或 星期 天 ”， 则 回答 YES, BU NO)。 对 于 实 值 变 量 , 每 个 节点 对 应 的 测试 可 以 基于 单一 
变量 (例如 ,距离 小 于 2 英里 ) 或 者 变量 的 简单 组 合 , 例如 变量 子 集 的 一 个 线性 函数 与 一 个 
闹 值 进行 比较 (例如 , 客户 花 在 汽车 和 摩托 车 上 的 钱 的 平均 值 多 于 2 万 美元 )。 上 述 概念 可 以 被 
广 到 要 预测 的 数值 变量 ， 发 展 为 回归 树 P9]。 每 片 叶 子 要 么 包含 到 达 这 里 的 所 有 实例 的 平 
均 输 出 值 ， 要 么 包含 从 这 些 实例 推导 出 的 一 个 简单 模型 ， 比 如 线性 拟 合 〈 后 一 种 情况 称 为 模 
型 树 )。 
实际 的 数据 中 ,缺失 值 就 像 冬 天 的 雪花 漫天 飞舞 。 缺失 值 有 两 种 可 能 的 意义 。 在 某 些 情 
BLP, 一 个 值 如 果 缺 失 了 , 它 会 提供 一 些 有 用 的 信息 (例如 , 在 市 场 营销 中 , 如 果 一 个 客户 没 
有 回答 某 个 问题 , 我 们 可 以 假设 他 对 此 不 是 很 感 兴趣 ), 缺失 值 可 以 被 当 作 一 个 类 型 变量 的 另 
一 个 可 能 值 。 其 他 情况 下 , 一 个 值 的 缺失 并 不 提供 任何 明显 的 信息 (例如 , 一 个 粗心 的 业务 员 
忘 了 记录 某 个 客户 的 数据 )。 决 策 树 为 处 理 第 二 种 情况 提供 了 一 种 自然 的 方法 。 如 果 一 个 实例 
到 达 了 一 个 节点 , 但 是 由 于 数据 缺失 而 无 法 回答 该 节点 对 应 的 问题 , 人 们 可 以 理想 化 地 “将 这 
个 实例 分 成 小 块 "， 并 且 根 据 所 包含 训练 实例 数 的 比例 ,将 这 些小 块 送 往 各 个 分 支 。 如 图 6-6 
所 示 , 如 果 30% 的 训练 实例 往 左 走 , 那么 一 个 有 缺失 值 的 实例 在 这 个 决策 节点 就 被 分 为 两 部 
分 , 比重 0.3 的 那 一 部 分 往 左 走 , 而 比重 0.7 的 那 一 部 分 往 右 走 。 当 这 个 实例 不 同 的 小 块 最 终 
都 到 达 叶 子 节点 时 ， 我 们 计算 对 应 叶子 节点 输出 值 的 加 权 平 均 ， 或 者 计算 出 一 个 分 布 。 加 权 
平均 中 的 权重 与 到 达 叶 子 部 分 的 比重 成 正比 。 在 这 个 例子 中 , 输出 值 是 0.3 乘 以 左边 的 输出 
加 上 0.7 乘 以 右边 的 输出 。 不 用 说 ,以 左 、 右 子 树 作为 参数 的 同一 程序 的 递归 调用 , 是 获得 非 
Q@ 令 人 好 奇 的 是 , 在 计量 经 济 学 领域 中 广泛 应 用 的 一 个 更 通用 的 版 本 ， 称 作 基尼 指数 、 系 数 或 者 比例 ， 被 用 来 描述 
总 体 资源 配置 的 不 平等 性 。 报纸 会 定期 发 布 各 个 国家 的 基尼 指数 排名 情况 ,并 结合 社会 经 济 变 量 的 分 析 ， 当然 其 中 的 道理 
不 会 跟 外 行 解释 的 。 
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常 紧凑 的 软件 实现 的 一 个 方法 。 
































图 6-6 ”缺失 的 身份 信息 。 到 达 顶 部 节点 的 数据 点 被 发 送 到 其 左 侧 和 右 侧 的 两 个 子 节 点 , 权重 根 
据 答案 “是 ”和 “和 否 ” 在 训练 集中 出 现 的 频率 而 有 所 不 同 














最 后 提醒 一 下 , 不 要 将 构建 中 的 决策 树 〈 使 用 己 标 记 实 例 、 纯 度 度量 ,以 及 选择 合适 的 问 
题 ) 和 使 用 已 构建 好 的 决策 树 相 混淆 。 当 使 用 决策 树 时 , 通过 一 系列 决策 , 输入 样本 会 迅速 从 
树 的 根 节 点 分 配 到 叶子 节点 。 

















6.2 ”民主 与 决策 森林 


在 20 世纪 90 ER, 研究 人 员 发 现 了 如 何 用 民主 的 方式 将 学 习 机 集成 起 来 (例如 ， 比 随 
机 猜测 性 能 略 好 的 通用 “ 弱 ” 分 类 器 )， 以 得 到 更 好 的 准确 性 和 泛 化 性 能 25 中。 这 可 以 类 比 
于 人 类 社会 : 很 多 情况 下 ， 设 立 专 家 团体 (committee of experts) 是 做 出 更 优质 决策 的 一 个 
方法 , 专家 或 者 达成 共识 , 或 者 提出 不 同 的 方案 并 表决 (在 其 他 情况 下 , 这 也 是 推迟 决策 的 方 
法 ,毕竟 所 有 类 比 都 有 它 的 缺点 )。“ 和 群众 的 智慧 ”fo4 是 近来 用 以 强调 民主 决策 积极 作用 的 
一 个 术语 。 在 机 器 学 习 中 , 输出 常常 由 多 数 决 定 (对 于 分 类 ) 或 由 平均 决定 (对 于 回归 )。 

在 处 理 高 维 数 据 时 ， 民 主 式 集成 这 一 点 似乎 尤其 正确 ， 因 为 在 现实 的 应 用 中 ， 高 维 数 据 
里 可 能 有 很 多 不 相关 的 属性 。 这 一 话题 并 不 像 它 看 起 来 那样 抽象 : 从 光学 字符 识别 中 用 到 的 
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神经 网 络 上 


为 了 让 专家 团 


影响， 以 


1 到 游戏 机 输入 设备 中 树 的 集成 B9] ,已 经 出 现 了 很 多 相关 的 应 用 
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ag 























体 来 做 出 高 明 的 决策 , 这 些 专家 需要 有 不 同 的 思维 方式 〈 即 不 受 群 体 思 维 





同样 方式 思考 的 专家 是 没有 用 的 ) 并 且 具 有 较 高 的 素质 。 获 得 不 同 的 树 的 方式 有 

















多 种 , 例如， 用 不 同 的 实例 集 来 训练 它们 , 或 者 以 不 同 的 随机 选择 来 训练 它们 (用 人 来 打 比 
T, 想 想 学 生 会 选择 同一 科目 的 不 同 课程 )。 
。 可 以 用 自助 法 从 初始 集合 中 产生 不 同 的 训练 实例 集 (参见 5.3 节 ): 给 定 一 个 大 小 为 

4 的 标准 训练 集 D， 自 助 法 通过 从 D 中 均匀 带 放 回 〈 有 些 实例 可 以 重复 ) 的 抽样 产 





的 ， 


作为 上 述 划分 方法 的 一 个 例子 , 这 里 来 看 看 它 
o 每 棵 树 用 原始 数据 集 的 一 个 自助 
。 每 当 一 个 叶子 节点 必须 被 分 裂 的 时 候 ， 只 考虑 属性 随机 选择 的 一 个 子 集 。 在 极端 情况 
只 考虑 一 个 随机 属性 (一 维 )。 


F; 














EHEH 


















































生 新 的 训练 集 。 抽 样 之 后 ， 每 个 训练 集中 大 概 有 


























1 一 1/e ~ 63.2% 的 实例 是 互 不 相同 





其 他 的 都 是 重复 的 。 想 想 随机 投球 入 做 (回想 图 5-5): 对 于 较 大 的 L KAA 
63.2% 的 八里 有 一 个 或 以 上 的 球 。 黎 中 的 每 个 球 对 应 一 个 实例 。 在 每 个 自助 法 的 训练 
集中 ,大 概 有 三 分 之 一 的 实例 被 排除 了 。 将 自助 法 用 于 创造 不 同样 本 集 的 方法 称 为 装 
袋 法 (bagging, “自助 汇 合 ”): 用 不 同 的 随机 自助 样本 来 构造 不 同 的 树 , 输出 是 不 同 树 
的 输出 的 平均 (对 于 回归 问题 ) 或 着 表决 《对 于 分 类 问题 )。 

。 在 选择 一 个 节点 的 最 优 问题 时 ， 可 以 通过 限制 选择 , 在 训练 时 进行 不 同 的 随机 选择 。 














































































































上 地 说 , 令 4 为 输入 变量 的 总 数 , BEER DDE 











定 一 个 节点 


























上 的 决策 , d 是 个 较 小 的 数 , 通常 比 d 要 小 得 多 (在 极端 情况 下 就 是 1)。 一 个 自 
助 抽样 0“ 包 ”) 引导 一 棵 树 的 构造 ， 而 那些 不 在 包 里 的 实例 可 以 用 来 估计 树 的 误差 。 对 于 树 








上 的 每 个 节点 , dq’ 个 属性 是 随机 选择 的 ,它们 是 在 这 个 节点 上 做 出 决策 的 基础 。 我 们 计算 基 












































门 是 如 何在 随机 决策 森林 中 实现 的 (928), 
HAE CRUE) 来 进行 训练 











构造 的 : 选择 a! 个 输入 变量 用 以 确 


























于 这 vd 个 变量 的 最 优 分 割 〈“ 最 优 ” 要 根据 所 选 的 纯度 标准 而 定 ，IG 或 者 GI)。 每 次 选择 一 
个 类 型 变量 来 对 一 个 节点 进行 分 割 , 可 以 随机 选择 这 些 类 型 的 子 集 , 并 定义 一 个 替换 变量 , 当 





类 型 值 在 这 个 子 集中 

















类 树 那 样 )。 











通过 上 述 步骤 , 我 们 实际 上 已 经 组 建 了 一 个 团体 (“ 


都 已 经 接受 了 不 同 的 训练 ， 

















PF 就 为 1， 否则 为 0。 每 棵 树 都 完全 成 长 而 不 修剪 (就 像 构 造 一 棵 普通 的 分 


BRAK”), 其 中 的 每 一 个 专家 (“ 树 ”) 











因为 他 们 已 经 看 到 了 一 组 不 同 的 实例 CL), 也 因为 他 们 用 不 同 的 





观点 看 待 问 题 (每 一 个 节点 使 用 不 同 的 随机 选择 的 标准 )。 然而 没有 哪 位 专家 可 以 完全 保证 胜 





任 工作 : 每 个 专家 关注 变量 








此 多 数 占 优 原则 (或 者 加 权 平 均 ) 将 会 提供 合理 的 答案 。 




















例 上 的 误差 ), 并 在 整 片 决策 森林 上 求 平均 。 






































的 顺序 远 远 没 有 达到 贪心 的 标准 ， 因 此 信息 量 最 大 的 问题 并 没有 
最 受 关注 , 如 此 一 来 , 单独 的 一 棵 树 是 非常 弱 的 ; 然而 , 大 多 数 专 家 都 比 随机 分 类 器 要 好 ,， 因 














使 用 自助 法 时 的 泛 化 估计 可 以 在 训练 过 程 中 以 一 种 上 自然 的 方式 得 到 : 记录 包 外 的 误差 (不 
在 包 中 的 实 





DO 决策 森林 在 微软 Xbox 游戏 机 主机 的 Kinect 传感器 中 用 于 人 体 跟踪 。 
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忆 


不 同 变 量 (特征 或 属性 排序 ) 的 相关 性 





— AKG 


路 是 : 如 果 








个 类 别 特 征 是 重要 的 , 那么 随机 地 置换 
策 森 林 拟 合 数据 之 后 , 为 了 推导 第 ;个 特征 的 重要 性 ， 
新 计算 这 个 扰乱 的 数据 集 上 的 包 外 误差 。 求 得 扰乱 











也 可 以 在 决策 森林 中 用 一 种 简单 方式 来 估计 。 主体 
值 应 该 会 导致 其 性 能 显著 降低 。 FY 
将 第 i 个 特征 的 值 进行 随机 置换 ,并 和 
前 后 的 包 外 误差 之 着 ,并 在 所 有 树 上 求 3 































































































E. 
区 














均值 。 误 判 率 增加 的 百分比 与 所 有 变量 不 变 时 包 外 误差 率 的 比值 就 是 该 特征 所 得 的 分 数 。 误 


判 率 增加 较 多 的 特 


























F 比 误 判 率 增加 较 少 的 特征 更 重 
可 以 使 用 大 量 树 ( 数 以 千 计 并 不 罕见 ) 这 一 事实 意味 着 ， 对 了 
个 实例 , 会 有 非常 多 的 可 月 
归 的 置信 界 或 者 分 类 的 概率 。 例 妇 
十 ”那么 可 以 说 估计 








“下 南 ” 的 概率 是 70 





日 的 输出 值 。 通过 收集 
N WRA 300 棵 树 预测 “上 晴天” FR EY 700 H 


TE 
K o 














需要 进行 分 类 或 预测 的 每 
[分 析 如 此 多 树 的 输出 的 分 布 ， 可 以 得 出 回 
树 预测 “下 
































% 








简单 的 < 如果- 那么 ”规则 提炼 


的 由 此 引出 融 组 





E M 


8 在 某 种 程度 上 可 以 被 人 们 理解 的 信息 金 块 。 避 免 可 能 
的 规则 矛盾 所 带 来 的 混乱 有 一 个 简单 方法 是 以 层次 结构 来 处 理 问 题 (首先 是 信息 
织 结 


ANH 


树 可 以 用 贪心 和 递归 的 方式 习 得 : 从 一 整套 的 实例 集 开 始 , 选择 一 个 测试 , RFE 





构 的 简单 的 连续 











两 个 尽 可 能 纯 的 子 集 ， 再 重复 产生 子 集 。 当 子 集 的 纯度 足以 在 树叶 上 得 到 分 类 输出 值 


递归 过 程 终止 。 


充足 的 内 存 和 强大 的 计算 能 力 允 许 我 们 训练 大 量 不 同 的 树 。 通 过 收集 所 有 输出 以 及 平 
均 (对 于 回归 ) 或 投票 (对 于 分 类 ), 它们 可 以 曾 有 成 效 地 用 作 决 策 森 林 。 





优点 : BTA ABA 





EF， 它们 能 自然 地 人 处 型 





于 概率 的 输出 ,以 及 概率 和 误差 线 ; 不 会 有 过 度 训 练 的 风险 ， 因 此 能 很 好 地 泛 化 到 从 未 见 











过 的 数据 ; 由 于 





Plo 





1A 


并 行 性 , 以 及 每 个 数据 点 上 减少 的 测试 问题 
时 然 一 棵 树 的 树 随 很 小 , 但 即使 是 最 火热 的 机 器 学 习 应 用 ,， 数 以 百 计 的 树 也 可 以 带 来 








问题 ， 称 为 决策 树 。 

















时 ， 



































决策 森林 有 各 种 
LE 两 类 以 上 的 分 类 问题 以 及 缺失 的 属性 ; 能 提供 基 








KE 
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， 它 快速 而 高 效 。 
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我 不 介意 我 的 眉毛 , 虽然 我 不 会 说 它们 是 我 最 好 的 特征 , 但 


它们 为 我 


增添 了 些 什 么 。 人 们 告诉 我 他 们 喜欢 我 的 眼睛 , 他 


们 的 注意 力 不 在 我 的 眉毛 上 。 


一 尼古拉斯 ER 





从 实例 中 学 习 模 型 之 前 ， 必 须 确 保 输 





入 数据 (输入 属性 或 特征 ) 足以 预测 输出 。 模 型 建 











立 之 后 ， 人 们 可 能 愿意 了 解 是 哪些 属性 显著 影响 着 输出 。 如 果 银 行 在 调查 哪些 用 户 足 够 可 靠 ， 





可 以 给 他 们 提供 贷款 , 那么 知道 哪些 因素 对 信用 有 正面 或 负面 的 影响 当然 是 有 意义 的 。 
























































特征 选择 ,也 称 为 属性 选择 或 变量 子 集 选 择 ， 是 选择 相关 特征 子 集 的 过 程 , 这 些 特征 将 

















在 模型 构建 中 使 用 。 特征 选择 不 同 于 特征 提取 , 特征 提取 会 考虑 用 原 有 特征 的 函数 来 创建 新 





的 特征 。 
特征 选择 和 排序 的 问题 不 是 一 件 小 事 








yY = W217 


























o 假设 建立 一 个 线性 的 模型 


F W2T2 + +++ + Wald 




















如 果 某 个 权重 wy 是 零 , 那 就 很 容易 推断 出 对 应 的 特征 zj; 不 会 影响 输出 。 但 要 记 住 , 计算 机 
























































中 的 数字 是 不 准确 的 ,实例 有 “噪声 ”( 受 测量 误差 影响 )， 以 至 于 权重 为 零 确 实 是 概率 非常 
小 的 事件 。 考虑 到 非 零 的 权重 , 可 不 可 以 得 出 这 样 的 结论 , 即 〈 绝 对 值 ) 最 大 的 权重 都 涉及 信 
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很 大 ,那么 当 这 一 特 生 
同 ， 当 测量 单位 改变 时 ， 








显著 的 特征 ? 








致 权重 改变 。 特 和 
尽管 如 此 , 如 果 输 
所 有 输入 变量 的 大 到 























最 大 和 
可 惜 不 能 。 这 与 输入 如 何 “ 缩 放 ” 有关。 如 果 特 征 x; 以 干 米 为 单位 进行 测量 时 , 权重 wy 
F 换 成 以 毫米 为 单位 测量 时 ， 权 重 将 变 得 非常 小 《如 果 我 们 希望 结果 相 





























乘积 wj x vy 必须 保持 恒定 )。 我 们 对 测量 单位 的 审美 变化 会 立即 导 




















的 值 依赖 于 所 选择 的 单位 ,因此 不 能 用 权重 大 小 来 评估 其 重要 性 。 
入 值 被 归 一 化 , 即 预 乘 以 茶 个 利 数 因子 ,使 得 典型 值 的 范围 相同 , 例如 
值 域 是 0~1， 那么 线性 模型 的 权重 可 以 给 出 一 些 健壮 的 信息 。 如 果 特 征 



























































选择 对 于 线性 模型 已 经 足够 复杂 了 , 那么 对 于 非 线性 模型 就 更 为 复杂 了 。 








7.1 ”特征 选择 : 情境 


DUE, 让 我 们 看 一 下 分 类 任务 的 一 些 定义 ( 见 第 3 章 的 图 3-1), 其 中 输出 变量 c 是 N 个 
类 之 一 , 输入 变量 z 的 可 能 值 是 一 个 有 限 集合 。 例 如 ,， 想 想 预 测 一 个 蘑菇 究竟 是 可 以 食用 的 
(类 1) 还 是 有 毒 的 (类 0)。 在 数据 中 提取 的 所 有 可 能 特征 集中 ， 人们 希望 获得 信息 量 高 的 那 





些 特征 ， 




































































使 得 分 类 问题 能 从 足够 的 信息 开始 , 并 且 只 有 分 类 器 的 实际 结构 被 保留 下 来 。 


现在 , 你 可 能 会 问 , 为 什么 人 们 不 使 用 整套 的 输入 , 而 具 用 特征 的 一 个 子 集 。 毕 竟 如 果 去 





























除 一 些 输入 数据 ,我们 也 会 丢失 一 些 信息 。 没 错 ， 但 这 里 有 个 维度 诅咒 : 如 果 输 入 的 维 数 过 
大 ,学 习 任 务 将 变 得 难以 管理 。 想 想 在 非常 高 维 的 空间 中 用 样本 来 估计 概率 分 布 的 难度 。 这 



























































FY Pa it o 

从 局 发 性 角度 来 说 ， 人 们 的 目标 是 得 到 一 个 小 的 特征 子 集 ， 尽 可 能 接近 最 小 的 那个 ， 它 
既 包含 足以 预测 输出 的 信息 ， 又 消除 了 宛 余 。 这 种 方式 不 仅 减 少 了 存储 器 使 用 量 ， 而 且 因为 
消除 了 不 相关 的 特征 和 参数 ， 所 以 泛 化 性 能 可 以 得 到 改善 。 此 外 ， 人 类 更 容易 理解 较 小 的 模 


型 。 





























是 “大 数据 ” 文本 和 网 页 挖掘 应 用 的 标准 情况 , 其 中 每 个 文档 可 以 通过 成 和 干 上 万 个 维度 (单词 
表 中 每 个 可 能 的 单词 占 一 个 维度 ) 来 表征 ,这样 对 应 于 该 文档 的 向 量 在 向 量 空 间 中 可 能 是 非 


= 







































































想 想 识别 手写 的 文本 中 的 数字 。 如 果 这 些 文本 写 在 彩 纸 上 , 并 将 纸张 的 颜色 作为 特征 , AB 














么 用 不 同 颜 


不 存在 人 


























色 的 纸张 测试 该 系统 时 ， 学 习 任务 会 更 加 困难 , 泛 化 能 力也 会 变 差 。 
特征 选择 是 一 个 这 相 


的 问题 : 它 有 许多 可 能 的 解决 方案 , 但 没有 形式 上 保证 的 最 优 解 , 也 











| 么 简单 的 算法 。 








缩放 和 归 一 化 (“五 ” 
就 去 掉 明 显 无 关 的 特征 ， 比 如 颜色 
其 次 , 需要 一 利 


























方法 来 估计 各 个 特征 的 相关 性 或 识别 能 力 ， 然 后 可 以 通过 自 底 向 上 或 自 
项 向 下 的 方式 进行 处 理 , 在 某 些 情况 下 通过 重复 运行 训练 模型 直接 检测 待定 特征 集 。 一 个 特 
征 的 值 与 模型 的 构建 方法 相关 , 以 及 依 方法 而 定 的 一 些 评价 技术 。 目 前 确定 了 3 类 方法 。 




















首先 , 应 该 应 用 设计 人 员 的 直觉 和 现 有 知识 。 例 如 , 如 果 要 识别 手写 的 数字 , 图 像 应 进行 
仍然 是 五 ， 即 使 放大 、 缩 小 、 拉 伸 、 调 整 亮度 ， 等 等 )， 并 应 该 从 一 开始 

























































































e 包装 方法 (wrapper method) Æ “Hl 
训练 一 个 模型 。 训 练 得 到 的 模型 的 泛 化 性 
型 的 , 但 通常 为 特定 模型 提供 表现 最 人 

e 过 滤 方 法 ilter method) 使 用 代理 度量 而 不 是 错误 率 为 特 和 
括 互信 息 和 相关 系数 。 许多 过 滤器 提供 

。 同 入 方法 (embedd method) 

构建 线性 模型 的 


























例子 是 用 了 


Tal 











绕 ” 着 特定 的 预测 模型 





能 可 以 为 该 子 集 
的 特征 集 。 











建立 的 。 
FE 分。 包装 方法 
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DK 
:是 计算 密集 





每 个 特征 子 集 
































E 子 集 评分 
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。 第 用 的 度量 包 


~、 














特征 的 排名 , 而 不 是 





LASSO 方法 ， 





数 收缩 到 零 ， 从 而 相应 的 特征 














机 一 起 使 


在 一 
并 通过 验证 组 输出 误差 是 
验证 集 上 测量 的 输出 误差 
































用 ， 反 复 构建 一 个 模型 ， 并 用 


通过 将 过 滤 方 法 与 包装 方法 相 结合 ， 人 们 可 以 用 自 底 向 上 或 自 顶 向 下 的 方式 进行 处 理 。 
个 自 底 向 上 的 贪心 式 包含 方法 中 , 人 们 根据 单个 特 











可 以 消除 。 为 一 种 方法 是 递归 
I 除 低 权 重 的 特征 。 

















个 明确 的 最 佳 特 征 子 集 。 














将 特征 选择 作为 模型 构建 过 程 的 一 部 分 。 这 种 方法 的 一 个 
它 禹 有 回归 系数 的 您 神 , 使 得 其 中 许多 系 
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特征 消除 ， 常 与 支持 向 量 

















寺 征 的 识别 能 力 的 顺序 来 逐步 添加 特征 














和 否 减少 来 检验 效用 。 特 征 的 最 优 数 量 可 以 
停止 下 降 时 的 数量 。 实 际 上 ， 如 果 超 过 















































寸 该 数量 点 时 仍 添 加 更 多 的 特 


yo 


用 启发 式 的 方法 确定 ， 


























tL, 误差 可 能 保持 稳定 ， 甚至 因为 过 拟 合 而 逐渐 增加 。 

在 自 顶 向 下 的 截断 法 中 ， 人 们 从 完整 的 特征 集 开 始 ,逐步 消除 特征 ， 同 时 寻找 最 佳 性 能 
点 〈 持 续 检查 在 一 个 合适 的 验证 集 上 的 误差 )。 

使 用 过 滤 方 法 必须 谨慎 。 注 意 , 对 单独 特征 分 别 进行 测量 将 抛弃 它们 之 间 的 相互 关系 ， 
此 结果 只 是 近似 。 还 有 可 能 发 生 的 是 ， 没 有 关联 信息 的 两 个 单独 特征 将 被 丢弃 ， 即 使 它们 的 
组 合 将 会 完美 地 预测 和 输出， 试想 一 个 带 两 个 输入 的 异 或 函数 。 















































作为 异 或 的 一 个 例子 ， 假 设 需要 识别 的 类 是 CorrectMenu( 汉 堡 包 , 甜点 )， 其 中 两 个 变量 
汉堡 包 和 甜点 如 果 在 菜单 上 , 那么 对 应 值 1 (如 果 存 在 ), 和 否则 为 0 ( 见 图 7-1)。 为 了 在 快餐 中 
CorrectMenu 
= 
(0) 
mg 
(1) 
e w Eii 
(1) 
=> FALSE 
Se 贺 
图 7-1 有 两 个 二 元 输入 和 一 个 输出 的 分 类 器 。 单个 特征 分 开 来 看 都 不 具有 信息 量 , 对 于 一 个 正 
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的 输出 , 这 两 个 特征 的 





结合 是 充分 必要 的 
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获得 适度 的 热量 , 你 需要 吃 一 个 汉堡包 或 甜点 , 但 不 能 同时 吃 这 两 个 。 菜 单 中 的 汉 煲 包 CGH 
点 ) 单独 存在 或 不 存在 不 能 反映 菜单 是 否 正确 分 类 。 但 仅 因为 它们 的 单独 信息 与 输出 分 类 无 
关 就 消除 其 中 一 个 或 两 个 输入 是 不 明智 的 。 你 需要 保存 和 读 取 这 两 个 属性 来 为 你 的 饮食 正确 
分 类 ! 这 个 简单 的 例子 可 以 泛 化 : 任何 饮食 专家 都 会 告诉 你 , 营养 不 是 单独 某 种 食物 的 多 少 ， 
而 是 整体 组 合 的 平衡 。 

现在 已 经 明确 了 情境 , 接 下 来 考虑 单个 特征 的 识别 能 力 的 代理 度量 的 一 些 例子 。 








































































































7.2 ”相关 系数 


设 Y 是 与 输出 分 类 相关 联 的 随机 变量 , Pr(y) Gye Y) 表示 输出 是 y 的 可 能 性 ; X; 是 与 
输入 变量 zx; 相关 联 的 随机 变量 , X 是 输入 向 量 的 随机 变量 , 它 的 值 是 x。 

数值 变量 间 的 线性 关系 使 用 最 广泛 的 度量 是 皮尔 逊 积 矩 相关 系数 (correlation coefficient )， 
它 是 通过 将 两 个 变量 的 协 方差 除 以 它们 的 标准 差 的 乘积 得 到 的 。 采用 上 述 符 号 , 第 i 个 输入 
特征 X 和 分 类 的 结果 了 之 间 ， 关 于 期 望 值 ux, 和 uy 以 及 标准 差 ox, 和 oy 的 相关 系数 
PXi,Y 定义 为 : 





















































_coviX;,¥] _ E(X: - px)(Y — uy) 
Ox,0Y Ox,0Y 
其 中 万 是 变量 的 期 望 值 , cov 是 协 方差 。 经 过 简单 的 变换 ， 可 以 得 到 等 价 的 公式 ; 
p E[X:Y] - ELEY] 
PX = JEX- PIX] VEY- ENY] 
相关 系数 除 以 标准 差 ， 使 其 与 测量 单位 相 独 立 ( 例 如, 以 千 米 或 毫米 为 单位 进行 测量 , 会 
产生 相同 的 结果 )。 相 关系 数 的 取 值 是 从 _1 到 1。 相 关 性 接近 1 意味 着 正 向 线性 关系 (特征 
H x; 相对 均值 所 产生 增 量 通常 伴随 着 结果 y 的 增加 )， 接 近 _1 则 表示 反 向 线性 关系 。 系 数 
越 接近 零 ， 变量 之 间 的 相关 性 就 越 弱 ， 例 如 (zi y) 点 图 看 起 来 像 一 片 围绕 着 预期 值 的 各 向 同 
性 的 云 , 没有 明显 的 方向 ,如 图 7.2 所 示 。 





PXi,Y 











(7.2) 
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7 g 
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1.0 1.0 一 1.0 —1.0 


图 7-2 ”数据 分 布 和 对 应 的 相关 系数 值 的 例子 。 记 住 , 相关 值 都 除 以 标准 差 , 因此 下 面 一 排 线 性 
分 布 都 有 相同 的 最 大 相关 系数 (1 或 -1) 
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正如 之 前 提 到 的 , 统计 独立 的 变量 具有 零 相关 性 , 但 零 相关 并 不 意味 着 变量 是 独立 的 。 相 
关系 数 只 检测 两 个 变量 之 间 的 线性 相关 性 : 一 个 变量 可 能 有 第 二 个 变量 的 充分 信息 ， 甚 至 能 
直接 确定 第 二 个 变量 的 值 , 如 yy = f(e) 的 情况 ,但 它们 还 是 零 相 关 的 。 

通常 的 建议 是 , 不 要 盲目 使 用 排序 标准 , 无 论 是 上 述 的 还 是 其 他 的 , 要 得 到 (验证 ) 数据 
上 的 分 类 性 能 测试 的 实验 结果 的 支持 才能 使 用 , 正如 在 包装 方法 中 所 做 的 。 















































































































































7.3 ”相关 比 


很 多 情况 下 , 学 习 算 法 的 预期 结果 是 类 别 型 (回答 “是 / 否 ” 或 一 组 有 限 的 选择 )。 使 用 相 
关系 数 需 要 假定 输出 是 数值 型 ,因此 对 于 类 别 型 不 适用 。 为 了 找 出 一 般 的 相关 关系 ,可 以 使 
用 相关 比 〈correlation ratio) 的 方法 , 衡量 数值 型 输入 和 类 别 型 输出 之 间 的 关系 。 
相关 比 背 后 的 基本 思想 是 , 根据 所 观察 到 的 结果 将 样本 的 特征 向 量 划 分 成 类 。 如 果 一 个 
特征 是 显著 的 , 那么 它 应 该 可 以 确定 至 少 一 个 结果 类 ,这 个 类 中 的 该 特征 的 平均 值 与 其 他 所 
有 类 的 平均 值 是 明显 不 同 的 , 否则 该 特征 对 于 分 辨 结果 将 不 太 有 用 。 

假设 有 个 样本 特征 向 量 , 可 能 是 之 前 阶段 试图 测量 时 使 用 的 算法 收集 到 的 。 ly 表示 
结果 y EY 出 现 的 次 数 , 这 样 就 可 以 通过 结果 划分 样本 特征 向 量 : 










































































































































































vyeyY S. (oe e 
换 句 话说 , 元素 zy 是 ly 个 结果 为 y 的 样本 中 的 第 ; 个 样本 向 量 的 第 i 个 分 量 (特征 )。 让 
我 们 关注 所 有 样本 向 量 中 的 第 i 个 特征 ,并 计算 它 在 每 个 结果 类 中 的 平均 值 : 






































aii 1 - a 
vyeY a) => 0 
Y j=1 


和 整体 的 平均 值 : 


最 后 , 特征 向 量 的 第 ;个 分 量 与 结果 之 间 的 相关 比 由 下 式 给 出 : 
>》 Ale -zO 











2 yeY 
nx; Y = ty 
Leg- 
VEY j=l 


如 果 第 i 个 特征 分 量 与 结果 的 值 之 间 的 关系 是 线性 的 , 那么 相关 系数 和 相关 比 都 等 于 依 
ERREK: 





2 a) 
X,Y = PX;,C 


在 所 有 其 他 情况 下 , 相关 比 可 以 把 握 非 线性 依赖 。 
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7.4 卡 方 检验 拒绝 统计 独立 性 




















让 我 们 再 来 考 








上 to — 

















人 们 可 以 











WH 





























没有 


RIRI 


词 语 t 











入 是 


的 上 述 计数 的 预期 值 可 以 通过 单个 事 


Pr( 存 在 词语 t 
如 果 计 数 





征 对 于 预测 输出 是 显著 的 。 接 下 来 只 需 检 查 偏差 是 否 足够 大 ， 


个 统计 上 合理 
统计 假设 


能 是 偶然 





太 可 


尔 在 1925 年 左右 提出 

假设 检验 有 时 被 称 为 验证 性 数据 分 书 
bb 的， 也 就 是 必须 回答 这 样 的 问题 : 
的 检验 统计 值 的 概率 是 多 少 ? 
在 我 们 的 例子 中 , 测量 x?( 卡 方 ) 值 : 





检验 做 日 
的 值 一 样 极端 














FA CRRA) 


然后 ， 
“存在 词语 


就 











分 类 问题 与 


可 以 通过 ; 
t” 和 “文档 











个 六 








EE 独 的 二 元 特征 。 
示 文 档 中 一 个 特定 词语 (关键 字 ) t 的 存在 /不 存在 和 输出 , 输出 可 
程 语言 的 。 因此 , 我 们 在 做 的 是 评估 两 个 类 别 型 特征 之 间 的 关系 。 





H 4 个 计数 器 count... IF 
的 词语 t 进 行 计数 。 例如, counto 对 应 类 =0 
秆 计数 除 以 实例 总 数 n 来 估计 概率 。 
属于 类 c” 这 两 个 寻 


H 
H 





t)。 

















偏离 两 个 独 江 


H44 











的 期 望 值 ， 




















的 概率 的 相 乘 获得 。 


人 们 可 以 得 出 这 两 个 事件 相关 的 结论 ， 因 








的 测试 是 统计 假 
检验 是 通过 使 月 


发 生 的 , 该 结 
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设 检验 。 


日 实验 数据 做 日 



































统计 决定 的 方法 。 
果 称 为 统计 学 显著 的 。 
的 , 他 是 葛 定 了 现代 统计 科学 基础 的 天 才 。 
» 与 探索 性 


始 ， 





Hs 





UN, ERFIR, RFA 








FE 可 以 表 














以 指示 该 文档 是 不 





它们 对 属于 (或 不 属于 ) 给 定 类 





























在 统计 学 
“ap ER” HORE 














有 件 是 独立 的 。 在 此 假设 下 , RAS 
列 如 E(counto1) 二 n:Pr( 类 = 





SEXT 


的 实例 文档 
且 有 词语 也 counto ,0 对 应 类 =0 


E 





件 
= 0): 


Fr 





此 该 特 


以 保证 它 不 是 偶然 发 生 的 。 一 


P ， 如 果 某 个 结果 不 
罗 纳 德 ” 费 希 




















数据 分 析 相 对 。 


决策 几乎 都 是 用 零 假 设 


假定 零 假 设 为 真 ， 观 察 到 一 个 至 少 与 实际 观察 到 



































2 [counte t 一 Pr( 类 = c) :Pr( 词 语 = 志 | ? 
XT 2 n- Pr(% = co) .Pr( 词 语 = t) pa 
X2 值 越 高 ,观察 到 的 数据 支持 独立 性 假设 的 信念 就 越 小 。 如 果 和 希望 得 到 定量 值 ， 可 以 通过 标 
准 统计 公式 计算 一 个 特定 值 偶然 发 生 的 概率 。 
对 于 特征 排序 而 言 , 没有 必要 进行 额外 的 计算 , 粗略 的 值 也 够 用 了 : 根据 这 一 标准 , 最 佳 
特征 是 具有 较 高 x? 值 的 。 它 们 更 加 偏离 独立 的 假设 , 因此 可 能 是 相关 的 。 
































7.5 MERE 


“有 信息 量 的 特征 ”这 一 定性 


义 。 


HH 























性 的 方式 是 使 








FA Centropy), 





标准 ， 


出 分 布 的 不 确定 性 的 特点 可 以 用 输出 


可 以 用 统计 方式 和 互信 


的 概 











息 (MI) 的 概念 进行 精 


。 理论 上 合 到 





率 分 布 进行 测量 
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里 的 测量 不 确 


Ke 


AWAN 
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Ke 











参见 下 面 的 i 
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HEX. WE, RIIK 


rai 


da 
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特定 的 输入 值 














Xs 





7.5 tate BER 65 














输出 的 不 确定 性 会 随 之 降低 。 输 入 某 个 值 之 后 , 输出 中 不 确定 性 减 小 的 量 称 为 互信 息 。 

如 果 一 个 特征 和 输出 之 间 的 互信 息 为 0， 输 入 的 知识 并 不 会 减少 输出 中 的 不 确定 性 。 换 
名 话说 , 不 能 (单独 地 ) 使 用 所 选择 的 特征 以 预测 输出 一 一 无 论 我 们 的 模型 有 多 么 先进 。 因 
此 , 输入 特征 向 量 和 输出 (期 望 的 预测 ) 之 间 的 MI 度量 与 确定 有 和 希望 的 (有 信息 量 的 ) 的 特 
征 是 非常 相关 的 。 参考 文献 [6] 开创 性 地 使 用 互信 息 来 进行 特征 选择 。 

在 信息 论 中 , AMK NEE 的 统计 不 确定 性 的 测量 , 定义 为 : 


















































































































































H(Y) = — > Pr(y) log Pr(y) (7.4) 
yeY 
ROP a, 单位 是 二 进 制 位 (pit), 用 于 指定 哪个 事件 发 生 ( 见 图 6-5)。 它 也 可 以 
用 来 量化 在 不 丢失 信息 的 情况 下 , 一 个 消息 可 以 被 压缩 的 程度 ”。 
现在 来 计算 第 i 个 输入 特征 ri 对 分 类 的 结果 y 的 影响 。 知道 输入 特征 值 CX; = ri) 后 , Y 
WRI: 




































































H(Y|z:) = — $ Pr(ylz:) log Pr(ylas) 
yEY 


其 中 , Pr(yle,) 给 定 第 i 个 特征 的 值 为 2; HAEN y 的 条 件 概率 值 。 
最 后 , 变量 Y 的 条 件 (conditional entropy) 被 定义 为 H(Y |ai) 在 第 i 个 特征 所 能 取 的 
所 有 值 zi € X; 上 的 期 望 值 : 






























































H(V|X) = Brex.[H(Vle)] = So Pre)H Yle) (75) 
TiEXi 
BAP H(Y|X;) 总 是 小 于 或 等 于 HY). CEF HY) 当 且 仅 当 第 i 个 输入 特征 和 输出 
类 统计 上 是 独立 的 , 即 对 于 每 个 yeyY 和 a; © Xi, 联合 概率 Pr(y, zi) 都 等 于 Pr(y) Pr(zi) GE: 
这 个 定义 并 没有 谈论 线性 相关 性 )。 根 据 定义 , 不 确定 性 减 小 的 量 就 是 变量 X; 和 YY 之 间 的 
互信 息 : 



































I(X;Y) = I(Y; X:) = H(Y) — H(Y|X;) (7.6) 
使 得 X 和 YY 之 间 的 对 称 性 明显 的 一 个 等 效 表 达 式 是 : 
I(X;Y) = So Pr(y, zi) log ae (7.7) 


YTi 

















虽然 理论 上 很 强大 , 但 从 已 标记 的 样本 开始 ,估计 高 维特 征 向 量 的 互信 息 ， 这 不 是 一 个 
简单 的 任务 。 参考 文献 [6] 中 提出 了 一 个 只 使 用 单个 特征 和 输出 之 间 的 互信 息 的 启发 式 方法 。 



























































D 香农 的 信 源 编码 定理 表明 , 在 极限 的 情况 下 , 消息 的 二 进 制 字 母 表 可 行 最 短 编码 的 平均 长 度 是 它们 的 业 。 如果 事 
件 的 发 生 概 率 相同 , 那么 是 不 可 能 进行 压缩 的 。 如 果 概 率 不 同 , 最 可 能 的 事件 可 以 分 配 较 短 的 码 ， 由 此 压缩 了 信息 整体 的 
长 度 。 这 就 是 为 什么 zip 工具 可 以 成 功 地 压缩 有 意义 的 文本 , 这 样 的 文本 中 单词 和 短语 有 不 同 的 出 现 频 率 , 但 压缩 伪 随 机 
序列 却 有 困难 , 比如 JPEG 文件 或 其 他 图 像 文件 的 有 效 编码 。 
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者 不 是 线性 相关 的 ， 而 互信 息 度 量 甚 至 不 要 求 两 个 变量 是 数值 型 的 。 请 记 住 ， 


有 两 个 或 更 多 类 别 , 但 这 些 类 别 没有 内 部 的 排序 。 例 如 , 性 别 是 分 为 两 类 ( 男 























性 和 女性 ) 并 | 





需要 强调 的 是 ， 互信 息 与 相关 性 不 同 。 一 个 特征 对 于 输出 可 以 是 很 有 信息 量 的 ， 即使 二 








没有 内 在 排序 的 标 称 变量 。 如 果 你 有 足够 丰富 的 数据 来 估计 它 ， 那么 互信 息 应 该 是 最 好 的 衡 











量 信息 含量 的 办 法 。 
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不 同 的 特征 集 进行 验证 , 将 方法 用 特征 选择 方案 “包装 ”起 来 。 
一 个 简便 的 方法 是 : 仅 当 有 理由 猜测 是 线性 关系 时 , 才 信 任 相关 系数 ， 
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证 据 ) 选择 方法 来 揭露 和 逮捕 真 凶 ,并 让 他 的 朋友 华 生 叹服 。 








对 特征 进行 排序 ， 如果 不 考虑 特定 的 建 模 方法 以 及 它们 之 间 的 相互 关系 , 将 会 是 很 
难 的 。 想 想 一 个 侦探 (在 这 种 情况 下 , 分 类 的 目标 是 “有 罪 ”或 “无 罪 ”) 聪明 地 结合 多 个 
AA, 并 避免 混乱 的 论证 。 排 序 和 过 滤 只 是 试探 的 第 一 步 , 并 且 需 要 通过 所 选 的 方法 尝试 














减少 模型 所 使 用 的 输入 特征 的 数量 , 同时 又 能 保持 大 任 相 同 的 性 能 , 这 样 做 有 许多 优 
点 : 更 小 的 模型 和 更 高 的 可 理解 性 , 更 快 的 训练 和 更 短 的 运行 时 间 , 可 能 还 有 更 强 的 泛 化 








困 


否则 可 以 考虑 


其 他 相关 度量 , 尤其 是 相关 比 ， 即 使 输出 值 不 是 定量 的 也 适用 。 使 用 卡 方 来 确认 输入 和 输 
出 之 间 可 能 的 依赖 性 , 通过 估计 单独 和 联合 事件 的 概率 。 最 后 ， 可 以 利用 强大 的 互信 息 来 
估计 定性 或 定量 特征 之 间 的 任意 依赖 关系 , 但 要 注意 ,， 只 有 非常 少 的 儿 个 实例 时 , 结果 可 





作为 一 个 练习 , 挑选 你 自己 喜欢 的 福尔摩斯 的 故事 , 并 找 出 他 使 用 了 哪些 特征 (线索 、 
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会 飞翔 , 就 必须 先 学 会 站 立 、 FH. RH, KBEFOME, 
vs ee 翔 。 








本 章 继续 沿 着 从 线性 模型 到 非 线性 模型 的 道路 进行 探索 。 为 了 避免 突 玫 ,我们 先 不 推出 最 
一 般 化 和 强大 的 模型 ， 而 是 先 从 线性 模型 的 逐渐 修改 开始 , 先 使 其 适用 于 预测 概率 logistic 
回归 ), 然后 使 线性 模型 局 部 化 , 更 加 关注 最 接近 的 实例 , 就 像 一 种 平滑 的 K 近邻 法 〈 局 部 加 
权 线 性 回归 ), 最 后 通过 对 权重 的 适当 限制 选择 输入 子 集 CLASSO). 

准备 阶段 之 后 ， 接 下 来 的 章节 中 将 接触 到 灵活 非 线 性 模型 的 精髓 ， 即 任意 平滑 输入 - 输 
出 关系 ， 例 如 多 层 感 知 器 (Multi-Layer Perceptron, MLP) 和 支持 向 量 机 (Support Vector 
Machine, SVM). 
















































































8.1 logistic 回归 











在 统计 学 中 , logistic 回归 被 用 于 根据 一 组 历史 事件 的 记录 预测 分 类 变量 的 各 种 结果 的 概 
率 。 例 如， 从 可 能 患 心 脏 疾病 的 病人 的 相关 数据 入 手 (疾病 “有 ”或 者 “没有 ”是 分 类 输出 变 
=), 想 要 预测 一 个 新 来 的 病人 患 心脏 疾病 的 概率 。 这 个 名 字 有 一 定 程度 上 的 误导 性 , 事实 上 
是 一 种 分 类 技术 ， 而 不 是 回归 。 但 这 种 分 类 是 通过 概率 的 估计 得 到 的 ， 因 此 使 用 术语 “ 回 
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4”。 常 见 的 输出 是 二 元 的 ,也 就 是 有 两 个 可 用 类 别 。 
使 用 线性 模型 的 问题 是 ,输出 值 是 无 界 的 ,而 我 们 需要 限定 输出 值 范围 为 0~1。logistic 
可 归 大 部 分 是 由 一 个 线性 模型 运行 的 , 但 logistic 函数 ( 见 图 8-1) 被 用 来 转化 线性 预测 器 的 
输出 ， 从 而 取得 一 个 0~1 的 值 , 这 也 可 以 解释 为 概率 。 通 过 将 这 一 概率 值 与 闭 值 相 比 较 , 可 
以 实现 一 种 分 类 (例如 ， 当 输出 概率 大 于 0.5 时 ， 分 类 为 “是 ”)。 





amy 



































































































































图 8-1 logistic 函数 把 输入 值 以 平稳 的 方式 转换 为 0~1 MAR. ARAA h TT DBR BARE 
为 一 种 概率 
logistic 曲线 是 一 种 常见 的 S 型 函数 。logistic 一 词 是 这 一 函数 用 于 研究 人 口 增长 时 引入 
的 。 在 人 群 中 , 繁殖 率 正比 于 现 有 的 人 口 数量 和 可 用 资源 的 数量 。 当 人 口 增长 时 , 可 用 的 资源 
减少 ; 当 人 口 达 到 系统 的 承载 能 力 时 , 资源 数量 为 零 。 增长 的 初始 阶段 接近 指数 关系 ; 然后 进 
入 饱和 阶段 , 增长 放 缓 ; 到 成 熟 阶段 时 , 增长 停止 。 
标准 的 logistic 函数 由 下 式 定 义 : 















































1 
1+e-t 


P(t) 
其 中 e 是 欧 拉 数 〈 数 学 常数 )。 变 量 t 可 以 是 时 间 ， 不 过 这 里 t 是 线性 模型 的 输出 ， 想 想 式 
(4. 


1), 我 们 有 : 

















1 
Pla) = Tea) 
记 住 , 线性 模型 w 也 可 以 包括 一 个 常数 值 wo, HUB AE CEE A AS ES 
于 1 的 输入 值 zo。 
下 面 来 看 看 在 这 种 情况 下 最 大 化 的 是 哪个 函数 。 线 性 变换 权重 的 最 佳 值 是 通过 最 大 似 然 
估计 来 确定 的 ， 即 通过 最 大 化 得 到 这 些 输出 值 的 概率 ， 这 些 输出 值 事 实 上 是 从 给 定 的 已 标记 
实例 中 得 到 的 。 将 每 个 独立 事件 的 概率 相 乘 。 令 vy; 为 所 观察 到 的 输出 (1 或 0)， 对 应 输入 为 
aio 若 Pr(y = lay) 是 由 该 模型 得 到 的 概率 ， 正 确 分 类 为 1 则 获得 测量 输出 值 的 概率 为 
Pr(y = 1 zi); 而 若 正 确 分 类 标签 为 0, 则 Pr(y = Ola;) = 1—Pr(y = llzi)。 所 有 因子 需要 相 乘 
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得 到 所 有 实例 的 整体 概率 ,按照 惯例 使 





成 了 











求 和 : 





























8.2 局 部 加 权 回 归 
用 对 数 形式 , 于 是 因子 (每 个 实例 对 应 一 个 ) 求 积 转换 


£ 
LogLikelihood(w) = > 人 5 In Pr(y;|a;, w) + (1 — yz) In(1 — Pr(yilæ:, w))} 
i=1 


似 然 率 Pr 与 系数 (权重 ) w 的 相关 性 
FP 的 非 线 性 性 , 我 们 不 可 能 找到 使 
























































由 于 上 述 表 达 式 中 
而 必须 
向 
细 ， 此 时 
Bukit, A 




















己 经 非常 明确 了 























用 迭代 过 程 来 代 殖 , 例如 梯度 下 降 法 。 该 过 程 始 于 一 个 














数 最 大 化 的 权重 的 解析 表达 式 ， 
初始 解决 方案 wstart， 然后 通过 
负 梯 度 的 方向 移动 来 进行 细微 调整 ,观察 是 否 需 要 改进 ， 并 重复 这 一 步骤 直到 改进 十 分 微 
我们 认为 这 一 过 程 已 经 收敛。 
E ML 中 ， 人 们 关心 怎 相 








使 泛 化 最 大 化 。 当 在 验证 集 上 测量 并 估计 出 的 泛 














化 性 能 为 最 佳 的 时 候 ， 以 上 最 小 化 过 程 可 以 也 应 该 尽早 被 终止 。 


8.2 局 部 加 权 回 归 





注 K 个 最 i 


4.1 市 中 我 们 已 经 看 到 如 何 确 定 一 个 线 愧 
旧 的 (已 标记 的 ) 实例 的 输出 值 来 预 涡 
一 个 输入 所 对 应 的 输出 值 的 那个 , 或 者 是 选 出 的 最 近邻 值 的 输 
本 节 中 考虑 的 方法 类 似 于 最 近邻 值 的 输出 的 线性 组 合 。 
邻 值 而 消除 所 有 其 他 值 的 影响 。 这 是 一 种 平滑 的 变化 : 我 们 根据 和 被 预测 的 实例 


























1 新 输入 的 输出 值 








FE 关系 的 系数 。 第 2 草 


-> 


中 的 K 近邻 法 根据 最 接近 





给 出 的 输出 可 以 是 最 接近 已 储存 的 







































































bt 值 的 某 些 简 单 组 合 。 

















日 我 们 没有 











之 间 的 距离 来 逐渐 减少 实例 对 预测 的 影响 , 而 不 是 选择 一 组 KK 个 胜 者 。 


通过 加 权 得 到 的 整体 相关 性 可 














a 











A 
个 非 
更 相 


所 有 点 和 评估 值 都 被 存储 了 ,而 只 有 查询 特定 
为 了 预测 一 个 点 g( 称 为 查询 点 ) WIV 
器 归 参数 过 程 中 的 局 部 性 (相近 的 点 更 术 


确定 





仍然 可 以 使 
常 普遍 的 原由 
关 。 











局 部 加 权 回 归 (Locally Weighted Regression) 是 一 种 懒惰 的 基于 存储 的 技术 ， 这 意味 着 
的 某 点 的 时 候 才 会 基于 请 求 建立 特定 的 模型 。 

佑 结果 , 我们 对 训练 点 应 
日 关 )， 给 每 个 样本 点 分 配 一 个 权重 ,这 个 权重 会 





J: 在 (自然 的 或 





用 ,只 不 过 该 评价 点 附近 的 训 


ey 


能 会 相当 复杂 。 



































当 模 


型 需要 

















那么 残 


在 不 同 的 点 进行 评估 
EF 佑 点 被 认为 比 远 处 的 “更 重要 ”。 这 里 过 到 了 一 
动 的 ) 学 习 中 , 相似 的 实例 通常 被 认为 比 那 些 相 差 甚 远 的 














Mi, 不 会 只 


HF, 线性 





























HRE 

















H 





归 。 为 了 确保 在 








随 着 与 查询 点 距离 的 增加 而 减 小 。 值 得 注意 的 是 ， 在 神经 网 络 业 内 ,术语 “权重 ”一 般 情况 





下 指 








的 党 











如 4.1 节 所 述 , 我 们 假设 所 有 输入 





数 项 ， 





因此 全 部 等 式 的 维 



































(下面 所 用 的 对 角 久 











由 训练 算法 计算 得 到 的 模型 参数 , 然而 在 这 种 情况 下 , 权重 度量 每 个 训练 样本 的 重要 性 。 
为 了 避免 混淆 ， 我们 用 术语 重要 性 和 符号 si 
用 法 。 








E 阵 记 为 S) 来 表示 这 一 特定 











向 量 zx; 都 以 常数 1 作为 第 0 个 元 素 , 它 被 用 作 回 归 中 
数 实际 上 是 d+ 1. 
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加 权 后 的 最 小 二 乘 拟 合 的 目标 是 最 小 化 下 面 的 加 权 误 差 〈 式 (4.2) 中 隐 式 地 假设 了 每 个 











点 的 权重 是 一 样 的 ): 





£ 


error(W; S1, , Sn) = 5 si(wT .zi — yi)? (8.1) 


i=1 











从 4.1 节 中 用 弹簧 进行 类 比 的 观点 来 看 , 样本 点 不 同 的 权重 分 布 对 应 于 使 用 不 同 弹 性 常数 ( 强 
E) 的 弹簧 ， 如 图 8-2 Prax. 为 了 最 小 化 式 (8.1), 可 以 令 其 关于 w 的 梯度 等 于 0, 得 到 如 下 

















解 : 


w* = (XTS X) XT S’y (8.2) 





其 中 S = diag(s1,… , sa), 而 X 和 2? 则 是 根据 式 (4.5) 来 定义 。 注意 当 所 有 权重 相等 时 ， 
(8.2) 简化 为 式 (4.5)。 

















> 


i 
图 8-2 ”加权 最 小 二 乘 拟 合 的 弹簧 类 别 〈 与 图 4-6 比较 )。 现在, MEAN ERER O 较 粗 

















意味 着 较 硬 , 所 以 它们 对 整体 势能 的 影响 需要 进行 加 权 。 对 于 上 述 情况 , 较 硬 的 弹簧 代 
表 更 靠近 查询 点 q 的 那些 点 


根据 储存 样本 到 查询 点 的 距离 , 可 以 使 用 以 下 函数 来 描述 它们 的 重要 性 : 


= exp ( e 
a Wr 


其 中 Wk 是 度量 “ 核 宽 度 ” 的 一 个 参数 ， 即 对 远 距离 实例 的 灵敏 度 ; 当 距 离 远 大 于 Wk 
重要 性 迅速 衰减 至 0。 
图 8-3 CE) 给 出 了 一 个 例子 , 模型 需要 在 查询 点 q 进行 估 值 。 样本 点 x; 用 圆圈 来 表 











































































































式 


时 ， 


不 ， 


它们 的 重要 性 s 随 着 与 g 点 距离 增加 而 减 小 ,并且 用 内 部 阴影 深浅 程度 来 表示 ， 黑 色 意 味 











着 重要 性 最 高 。 线 性 拟 合 ( 实 线 ) 是 通过 考虑 各 点 的 重要 性 而 计算 出 的 ， 并 根据 模型 在 q 
估计 出 相应 的 值 。 对 于 每 一 个 查询 点 , 每 个 样本 点 的 重要 性 和 随后 的 线性 拟 合 都 会 重新 计 
前 提 是 曲线 如 图 8-3 CR) 所 示 。 
































点 
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Fr? 
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重 拟 合 




















图 8-3 (CE) LWR 模型 在 


q 


q 点 估 值 , 样本 点 的 重要 性 


> 





























每 个 点 对 应 一 个 不 同 的 线性 拟 合 


贝 叶 斯 局 部 加 权 回 归 





























与 任务 有 关 的 信息 可 以 方便 地 通过 先 验 概率 分 布 加 入 模型 。 


贝 叶 斯 局 部 加 权 回 归 , 记 为 B-LWR, 用 于 确定 关于 系数 取 值 
力量 一 般 来 自明 确 规 范 的 模型 假设 和 参数 
认识 ), 而 且 建 模 的 概率 并 不 局 限于 它 的 期 望 值 , 而 是 整 




















量 地 得 出 期 望 值 的 不 确定 性 。 











为 我 们 带 来 B-LWR 的 是 系数 w 分 布 的 先 验 假设 : 
的 多 元 高 斯 分 布 。 而 o 的 先 验 假设 是 1/c2 RAA k 为 形状 参数 、 以 9 为 
布 。 由 于 使 用 加 权 回 归 , 每 个 点 及 其 相应 输出 是 通过 高 斯 权重 函数 加 权 的 。 以 和 矩阵 的 形式 ,， 数 























据点 的 权重 组 成 《x 的 对 角 久 
























































分 布 的 先 验 方差 。 














它们 服从 零 期 望 和 








1 协 方差 和 





内 部 阴影 表示 ; (下 ) 所 有 点 的 估 值 ， 


目前 为 止 , 我 们 还 没有 做 过 有 关 待 定 系 数 的 先 验 概率 分 布 的 假设 。 在 某 些 情况 下 , 一 些 
的 先 验 信息 。 贝 叶 斯 技术 的 
(比如 , 一 个 先 验 分 布 可 以 建 模 我 们 对 函数 的 初步 
个 概率 分 布 。 例 如, 置信 区 间 可 以 定 


E 阵 为 X 





EBB MS ay 


ERE S = diag(s1,--- ,se), WHERE X = diag(o1,… ,oe) 包含 w 
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查询 点 q 的 局 部 模型 是 由 w 的 边缘 后 验 分 布 预测 的 ， 而 w 的 期 望 值 由 下 面 的 式 子 估 


















































W: 

w = (X + XTS’ X) HXT Sy) (8.3) 
注意 ， 去 除 先 验 知识 其 实 对 应 先 验 假设 中 的 方差 无 穷 大 ， 从 而 D EARE, 式 (8.3) 简 
化 为 式 (8.2)。 和 矩阵 马 十 XTS?X 是 加 权 协 方差 矩阵 , 其 中 以 w 的 先 验 知识 加 以 补充 。 它 的 
逆 和 矩阵 表示 为 Vwo FET 个 数据 点 的 高 斯 噪声 的 方差 可 以 估计 为 : 


52 = 20+ ww a 
Faan 
w 分 布 的 协 方差 矩阵 的 估计 值 由 下 面 的 式 子 计 算 : 
(20 + (yT — wT XT) Sy) (57t + XTS? X) 
2k + S 52 


自由 度 由 大 十 于 4_，s? 给 定 。 从 而 查询 点 q 的 预测 输出 响应 为 ; 






























































Vw = 











而 预测 输出 的 均值 的 方差 可 由 下 面 的 式 子 计算 : 
































var(§(q)) = qT Vawgqo? (8.4) 


8.3 FA LASSO 来 缩小 系数 和 选择 输入 值 


考虑 线性 回归 模型 时 ,， 岭 回归 是 一 种 通过 二 次 方式 来 惩罚 大 系数 ， 从 而 使 得 模型 更 稳定 
的 方法 ， 如 式 (4.7) 所 示 。 

普通 的 最 小 二 乘 估计 法 通常 偏差 较 小 , 但 是 方差 较 大 。 为 了 提高 准确 率 , 有 时 可 以 将 一 些 
系数 缩小 或 者 设置 为 零 。 通过 这 样 做 , 我 们 牺牲 一 点 偏差 ,以 减少 预测 值 的 方差 ,从 而 可 以 提 
高 整体 的 预测 准确 率 。 还 有 一 个 原因 是 便于 解释 。 如 果 存 在 大 量 的 预测 量 (输入 变量 ), 我 们 
通常 想 找 到 一 个 具有 最 大 影响 力 的 较 小 子 集 。 特 征 子 集 选 择 和 岭 回 归 ， 这 两 个 改进 估计 的 标 
准 技术 仍然 存在 一 些 缺 陷 。 子 集 选择 提供 了 便于 解释 的 模型 , 但 由 于 它 是 一 个 离散 过 程 ， 输 
入 变量 (回归 量 ) 要 么 保留 , 要 么 删除 , 该 模型 的 变化 也 可 能 是 特别 大 的 。 即 使 数据 中 很 小 的 
变化 , 也 可 能 产生 十 分 过 异 的 模型 , 这 就 降低 了 预测 准确 率 。 岭 回归 是 一 种 连续 让 系数 缩小 ， 
从 而 使 得 模型 更 稳定 的 过 程 ， 然 而 它 并 没有 设置 任何 系数 为 零 , 所 以 无 法 得 出 一 个 易于 解释 
的 模型 。 参 考 文献 [107] 中 提 到 一 种 新 的 技术 LASSO， 即 “最 小 绝对 收缩 和 选择 算 符 ”。 它 使 
得 一 些 系数 缩小 而 另 一 些 设 置 为 零 ， 因 此 保持 了 子 集 选择 和 岭 回归 两 种 方法 的 优势 。 
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平方 权重 和 的 约束 


带 约束 的 优化 权重 ( w=0) 带 约束 的 优化 权重 (10 ) 

图 8-4 ”在 LASSO P, 最 好 的 解决 方案 出 现在 二 次 误差 函数 等 高 线 接触 正方 形 处 , 有 时 会 在 正 
方形 的 角 上 ,对 应 某 些 堆 系数。 相反, 岭 回归 的 二 次 约束 没有 角 来 让 等 高 线 接触 ， 因此 
权重 中 很 少 会 产生 零 


LASSO 使 用 权重 绝对 值 的 总 和 作为 约束 wh (参数 向 量 的 Ly 范 数 )， 它 不 会 大 于 给 定 
值 。 LASSO 在 系数 绝对 值 总 和 小 于 一 个 常数 的 约束 下 ,使 得 残 差 平方 和 最 小 化 。 通过 一 个 标 
准 技巧 , 将 带 约 束 的 优化 问题 通过 拉 格 朗 日 乘 数 法 转化 为 无 约束 的 问题 , 这 相当 于 将 Alwlli 
加 入 无 约束 最 小 化 的 最 小 二 来 : 
















































































e d 
LASSOerror(w; A) = X (wT -£i — y) + 入 》， |w;| (8.5) 
i=1 j=0 
LASSO 和 上 岭 回 归 一 个 最 主要 的 区 别 是 , 在 岭 回归 中 随 着 惩罚 的 增加 ,所 有 系数 减 小 , 但 
保持 非 零 的 状态 ,而 LASSO 随 着 惩罚 的 增加 会 导致 更 多 的 系数 变 为 零 。 对 应 的 权重 为 零 的 
输入 值 就 可 以 消除 ,从 而 导致 模型 使 用 较 少 的 输入 值 “输入 的 稀 踊 化 )， 因 此 更 便于 解释 。 较 
少 的 非 零 参 数 有 效 减 少 了 变量 数目 ， 而 这 正 是 影响 解决 方案 的 因素 。 换 言 之， 作为 模型 构建 
过 程 的 一 部 分 , LASSO 是 一 种 进行 特征 选择 的 嵌入 式 方 法 。 
注意 , 式 (8.5) 中 惩罚 较 大 权重 的 那 一 项 , 当权 重 为 零 时 不 存在 导数 ( 偏 导数 从 对 应 负 值 
的 —1 跳 到 对 应 正 值 的 +1)。 通 过 计算 导数 并 令 其 等 于 零 来 求解 , 并 得 到 一 个 线性 系统 的 “ 技 
巧 ” 在 这 里 没 法 使 用 。 优 化 LASSO 的 问题 可 以 通过 引入 带 线 性 不 等 式 约束 的 二 次 规划 或 更 
一 般 的 凸 优化 方法 来 解决 。 LASSO 的 参数 和 的 最 佳 值 可 以 通过 交叉 验证 来 获得 。 
拉 格 朗 日 乘 数 优化 约束 问题 
上 述 方法 将 带 约束 的 优化 问题 转化 为 无 约束 的 优化 问题 ,并 已 被 广泛 应 用 , 对 于 好 奇 心 
旺盛 的 读者 ,即使 是 关于 数学 的 题 外 话 也 是 值得 一 提 的 。 在 数学 优化 中 , 拉 格 朗 日 乘 数 法 是 
在 带 约 束 的 前 提 下 用 来 寻找 函数 局 部 最 大 值 和 最 小 值 的 方法 。 带 约束 问题 是 通过 将 各 个 约束 
乘 以 一 个 参数 (一 个 拉 格 天 日 乘 数 ) 转化 为 无 约束 的 。 最 小 化 转换 后 的 函数 将 导出 优化 的 必 























































































































































































































74 第 8 章 特定 非 线性 模型 








要 条 件 。 
考虑 一 个 二 维 问题 : 














最 大 化 f(z,y) 


约束 条 件 g(x,y) =e 





对 于 不 同 的 a, 我 们 可 以 可 视 化 f 的 等 高 线 
f(x,y)=d 


在 图 8-5 中 展示 了 这 些 等 高 线 和 g(x,y) = e 的 等 高 





> 

















图 8-5 ” 拉 格 朗 日 乘 数 法 














假设 我 们 沿 着 等 高 线 g = c HE. 一 般 情况 下 , f Mg 














当 fig 的 等 高 线 切 向 量 平行 时 ，f 和 g 的 等 高 线 相 接触 。 因 为 函数 的 梯度 是 垂直 于 





的 等 高 线 是 不 同 的 , 所 以 g= e 的 等 
高 线 将 与 f 的 等 高 线 相交 或 者 穿 过 。 这 就 相当 于 , 沿 着 g = ce 的 等 
只 有 当 等 高 线 g = c Sf 的 等 高 线 相 切 (接触 但 不 交叉 ) 时 , /的 值 既 不 增加 也 不 减少 。 





高 线 的 ， 所 以 切 向 量 平 行 就 相当 于 f 和 9 的 梯度 是 3 














eae =c 并且; 





Vf(z,y) = àVg(x, y) 








拉 格 朗 日 乘 数 和 ME T AN E its RTA RIRA 




















FEF 行 的 。 因 





一 个 梯度 ! 


高 线 移动 ，f 值 是 不 同 的 。 








此 我 们 在 点 (x,y) 处 要 求 
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梗 概 
线性 模型 应 用 广泛 , 但 是 在 许多 情况 下 仍 有 不 足 。 本 章 举例 介绍 了 3 个 具体 的 改进 方 




















ise 





首先 ， 有些 原 因 可 能 导致 输出 值 需要 被 限定 在 一 定 的 范围 内 。 比 如 ， 若 要 预测 概率 ， 
则 输出 值 的 范围 只 能 是 0~1。 一 种 方法 是 将 输入 的 线性 组 合 传递 给 一 种 “ 挤 压 ”logistic PA 
数 。 最 大 化 训练 事件 的 对 数 似 然 率 , 就 得 到 了 广泛 使 用 的 logistic 回归 。 

其 次 , 可 能 有 些 情况 下 线性 模型 需要 局 部 化 , 不 同 的 输入 点 赋予 不 同 的 权重 ,那些 距 
离 需 要 预测 的 输入 样本 更 近 的 点 拥有 更 大 的 权重 。 这 就 是 局 部 加 权 回 归 。 

最 后 ,在 需要 优化 的 函数 中 加 入 的 大 权重 的 惩罚 项 ,不 一 定 是 权重 的 平方 和 《只 有 通 
过 计算 导数 得 到 线性 等 式 时 才 会 有 ), 可 以 有 其 他 选择 。 例如, 用 绝对 值 之 和 作为 惩罚 , 既 
可 以 有 成 效 地 减少 权重 ,又 能 使 输入 变 得 稀 跌 。 这 就 是 使 用 LASSO 技术 来 缩小 系数 和 选 
择 输入 。LASSO 减少 了 非 零 权重 的 数目 ， 从 而 也 减少 了 对 输出 值 有 影响 的 输入 值 数 量 。 

学 习 本 章 之 前 , 对 于 你 来 说 套 索 (lasso) 只 是 一 端 有 活 结 的 、 用 来 套 住 牛马 的 长 绳 。 而 
现在 , 你 可 以 用 它 来 套 住 更 多 有 意义 的 模型 。 










































































第 9 章 神经 网 络 : 多 层 感知 器 


大 自然 是 大 师 中 的 大 师 , 除非 从 他 那里 获得 灵感 ， 否 则 其 他 
的 都 是 徒劳 无 益 。 





人 类 的 神经 系统 , 包含 大 约 1000 亿 个 计算 单元 和 大 约 1015 个 连接 ,能 够 完成 令 人 惊讶 
的 智能 行为 。 事实 上 ， 人 类 大 脑 的 能 力 定 义 了 智能 。 这些 计算 单元 是 称 为 神经 元 的 一 类 特殊 























细胞 , 之 间 的 连接 称 为 突 触 , 每 个 神经 元 的 计算 依靠 电流 进行 , 这 些 电流 由 突 触 电信 号 引发 ， 























在 神经 元 中 央 部 分 进行 整合 ,并 且 在 超过 兴奋 闵 值 时 将 电 脉 冲 传递 给 其 他 神经 元 。 神 经 元 和 
突 触 在 第 4 章 中 已 经 展示 过 了 〈 见 图 4-3)。 为 神经 元 建 模 的 一 个 方法 是 线性 分 类 器 ， 它 判断 
输入 的 加 权 和 是 否 通过 某 个 “ 挤 压 ” 函 数 〈 见 图 44)。 这 个 挤 压 函 数 的 输出 水 平 用 以 表示 神 


























经 冲动 的 频率 ,范围 从 零 到 最 大 频率 。 


























因此 , 单一 的 神经 元 是 一 个 简单 的 计算 单元 , 它 计算 一 个 标量 积 , 接着 是 一 个 $ 型 函数 。 
顺便 说 一 下 ,这 个 计算 相当 嘲 杂 和 不 规则 ， 因 为 它 是 基于 电信 号 的 ， 


而 这 个 电信 号 又 受到 化 





学 物质 、 压 力 、 血 液 供应 、 血 糖水 平等 因素 的 影响 。 神 经 系统 的 智能 是 按照 互联 的 强度 编码 
的 ,并且 通 过 改变 连接 来 进行 学 习 。 这 种 模式 与 “标准 ” 串 行 计算 机 十 分 不 同 , 串 行 计算 机 以 




















au 





周期 的 方式 执行 : 从 存储 器 中 取出 内 容 , 进行 数学 运算 , 再 将 结果 写 
分 存储 器 和 处 理 过 程 ,而 是 通过 网 络 中 的 信号 流 来 操作 。 




















加 储存 器 。 神 经 网 络 不 区 





主要 的 待 解 之 谜 是 : 许多 简单 的 单位 连结 起 来 的 系统 ， 竟 可 以 产生 如 此 令 人 难以 置信 的 
智能 活动 , 比如 识别 物体 、 说 话 、 听 懂 别 人 说 话 、 喝 一 杯 咖啡 , 以 及 为 了 你 的 职业 生涯 而 努力 。 
涌现 〈emergence) 是 多 个 相对 简单 的 交互 形成 复杂 系统 的 方式 。 类 似 的 涌现 特性 在 自然 界 也 
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FY LAMBS), AA 
因 
元 能 组 成 智能 








脑 ”)， 但 是 当时 仅 有 


眼 雪 花 复 杂 的 对 称 图 案 , 也 是 从 简单 的 水 分 子 
思议 的 灵感 来 源 , 同时 也 证 明了 十 分 简单 的 互联 计算 单 
其, 这 个 生物 领域 的 隐喻 就 已 经 很 诱 人 了 (“电子 大 


pkb 


此 , 真正 的 大 脑 是 研究 者 不 可 | 
系统 。 早 在 计算 机 发 展 的 初 
些 简 单 的 类 比 ， 并 没有 构造 知 











内 克 所 说 的 “飞机 不 扇 动 翅膀 ”。 
| 算 工具 的 理念 





原则 作为 一 种 记 
则 和 推理 的 人 工 























于 单个 祝 











复杂 性 必然 来 自 参 

















祖母 一 样 )。 这 上 


也 只 能 产生 线性 函数 。 有 组 织 的 层次 是 大 脑 皮 层 中 真实 可 见 的 ， 


Hee 
智能 ， 


学 习 的 过 程 就 是 在 外 部 刺激 的 
经 元 的 功 
与 一 个 复杂 的 行为 的 更 多 层 的 * 
的 “ 挤 压 ”函数 为 这 个 系统 引入 关键 的 非 线 性 关系 , 没有 它们 的 话 , 再 多 的 层 














EY 
ay HH 


$b H, 


we MHI ST. I 
转变 为 知识 被 编码 在 系统 参 
啊 下 逐渐 修 
























































开始 形成 的 。 








统 的 蓝图 





， 就 像 弗 雷 德 里 殉 ” 杰 利 


用 不 


然而 , 在 20 世纪 60 ERAK 80 年 代 末 , 生物 大 脑 运 作 的 
维 的 转变 导致 了 研究 模式 的 改变 ， 从 基于 符号 规 
数 ( 像 突 触 互联 权重 ) 中 的 人 工 神 经 系统 ， 
允 改 这 些 参 数 。 

能 是 相当 简单 的 ， 它 只 是 用 一 个 超 平面 将 输入 空 
申 经 元 (就 像 在 所 有 可 能 








间 分 成 两 个 区 域 ， 
9 情况 下 认 出 你 的 








意 力 、 感性 认识 识 、 思 BE 语 言 和 意识 的 那 一 部 分 CJL 


图 9-1 





它 是 大 脑 中 控 种 





I 记忆力、 注 


图 9-1)。 








3 张 皮层 分 层 图 ， 由 圣地 

















哥 ” 拉 蒙 - 卡 哈 尔 








顶端 是 皮层 的 表面 。 不 同 的 节点 显示 


od 





和 轴 





对 于 更 复杂 的 “序列 的 ”运算 , 例如 逻辑 推理 ， 
正如 你 所 认为 的 那样 ， 人 -了 


工 神经 网 络 模拟 。 


突 



































绘制 , 每 张 都 表示 一 个 垂直 


方向 的 横 截 面 ， 








经 元 的 细胞 体 , 以 及 一 些 随机 神经 元 子 集 的 树 突 





反馈 回路 是 必 不 可 少 的 , 但 更 难以 通过 人 








[智能 中 “高 层次 ”、 


符号 化 和 推理 的 观点 与 “ 低 


层次 ” 子 符号 化 的 人 工 神 经 网 络 的 观点 是 互补 的 。 对 于 计算 机 来 说 很 简单 的 任务 ， 比 如 解 方 





程 或 者 























EHE, 对 人 脑 来 说 是 困难 的 ; 对 于 人 脑 来 说 很 简单 的 任务 ,比如 认 出 你 的 祖母 ， 仍 难以 
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在 计算 机 上 进行 模拟 。 现在 普遍 承认 两 种 风格 的 智能 行为 , 也 导致 关于 “ 快 思维 和 慢 思 维 ” 的 
畅销 书 的 出 现 四。 

无 论 什么 情况 下 , 都 会 有 “飞机 不 扇 动 翅 膀 ” 的 情况 。 尽管 人 类 大 脑 是 灵感 的 源泉 及 可 行 
性 的 凭证 ,大 多 数 人 工 神 经 网 络 却 实际 运行 在 标准 计算 机 上 。 诸 如 “神经 网 络 ”“ 机 器 学 习 ” 
“人 工 智能 ”等 领域 事实 上 逐渐 融合 起 来 , 这 些 不 同 的 术语 各 自 涵 盖 一 系列 技术 , 这 些 技术 用 
于 智能 系统 中 不 同 且 经 常 互补 的 一 些 方面 。 

本 章 的 重点 是 前 馈 多 层 感知 器 神经 网 络 〈 无 反馈 回路 )。 




















9.1 多 层 感 知 器 


8.1 节 中 的 logistic 回归 模型 , 通过 将 S 型 传递 函数 应 用 到 无 限制 的 线性 模型 输出 上 , 使 
得 输出 可 以 被 解释 为 一 个 概率 值 , 它 是 添加 “最 小 限度 的 非 线性 ”的 简单 方法 。 可 以 把 logistic 
器 归 模 型 看 作 把 划分 输入 空间 的 一 个 刚性 平面 (基于 线性 计算 和 阔 值 的 比较 , 一 边 输出 0, 另 
一 边 输出 1) 转变 成 平滑 的 灰色 过 渡 区 , 这 个 平面 的 两 边 , 一 端 是 越 远 离 平 面 就 越 黑 ， 而 另 一 
端 是 越 远 离 平面 就 越 白 , 两 端的 中 间 是 灰色 的 ”( 见 图 9-2). 





















































图 9-2 logistic 函数 的 效果 : 带 有 阔 值 的 线性 模型 (ZED; S 型 平滑 过 渡 CAD 








如 果 将 y 视 作 地 形 的 高 度 ， 那么 许多 情况 下 ， 山 区 有 太 多 的 丘陵 、 山 峰 和 山谷 ， 因 此 无 
法 用 一 个 平面 或 者 单一 的 平滑 过 渡 区 来 建 模 。 

如 果 将 线性 变换 接连 组 合 起 来 , 情况 也 不 会 改变 : 两 个 连 在 一 起 的 线性 变换 仍然 是 线性 
的 “。 但 是 如 果 将 第 一 个 线性 变换 的 输出 进行 非 线 性 S 型 函数 变换 ， 然 后 再 进行 第 二 个 线性 
变换 ， 就 可 以 得 到 想 要 的 结果 了 : 能 够 逼近 所 有 光滑 函数 的 灵活 模型 。 术 语 非 参数 模型 用 于 
强调 它们 的 灵活 性 ， 也 用 于 将 它们 与 刚性 模型 区 分 开 来 。 在 刚性 模型 中 ， 只 有 某 些 参数 可 以 
根据 数据 进行 调整 。 参 数 化 模型 的 一 个 例子 是 振荡 sin(wz)， 其 中 参数 w 必须 由 实验 数据 确 






















































































O 观察 一 下 , 可 以 注意 到 logistic 回归 与 没有 隐藏 层 却 有 单一 输出 值 的 MLP 网 络 确实 有 着 相同 的 体系 结构 ,改变 
的 只 是 进行 优化 的 函数 、MLP 优化 误差 平方 和 ,以 及 针对 logistic 回归 优化 的 对 数 似 然 函 数 (LogLikelihood)。 

© 考虑 一 下 两 个 线性 变换 AM B. 在 A 之 后 应 用 B, 得 到 的 B(A(zx)) 仍 保持 线性 性 。 EXE, B(A(azw + by)) = 
B(aA(@) + bA(y)) = aB(A(ax)) + bB(A(Y)). 
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定 。 第 一 个 线性 变换 将 提供 输出 的 第 一 个 “隐藏 层 ”( 隐 藏 是 因为 它 处 于 内 部 , 而 且 不 能 像 最 
终 输出 那样 直接 可 见 ), 第 二 个 变换 将 从 隐藏 层 中 产生 可 见 输出 。 









































多 层 感 知 器 神经 网 络 是 | 





决 特定 的 问题 。 神 经 元 以 
体系 结构 。 
图 9-3 多 层 感 知 器 : 





成 可 能 。 图 
层 感 知 器 的 体系 结构 组 织 方式 如 下 。 信 号 从 输入 层 依 次 流 过 不 同 的 层 , 最 后 到 达 输 +H 


多 
Zo 中间 层 称 为 隐藏 层 ， 











大 量 的 高 度 互 联 单元 (神经 元 ) 构成 的 , 它们 平行 工作 , 用 于 解 
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因为 它们 在 输入 端 或 输 


明和 
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层 的 方式 组 织 起 来 , 之 间 有 前 馈 信 息 流 〈 无 回路 )。 图 9-3 


层 的 S 型 传递 函 








展示 了 该 





输出 





数 引 入 的 非 线 和 





E, 使 得 创建 任意 连续 函数 变 
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端 是 不 可 见 的 。 对 于 每 个 层 , BES 




















计算 权 向 量 与 另 一 个 向 
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量 之 间 的 标 
过 一 个 传递 函数 ， 产 生 下 一 层 的 输入 。 一 个 常 有 
MEAE 0; 输入 是 大 的 


里 小 \， 














这 个 向 量 
日 的 光滑 渐 近 传递 函 
FE 信号 时 , 输出 趋 近 1) 是 S 型 函数 ， 称 








是 由 前 给 出 的 。 得 到 的 结果 经 
数 〈 输 入 是 大 的 负 信和 号 时 ， 
AS 型 函数 , 是 因为 它 的 


oe | 
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层 的 加 
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图 像 形状 像 英文 字母 S。 之 前 遇见 过 的 logistic 转换 就 是 一 个 例子 〈 见 图 8-1): 
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f(x) 
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其 他 传递 函数 可 用 于 输出 层 。 例 如 恒 等 函 数 ， 可 用 


“是 / 否 ” 的 分 类 问题 或 对 概率 建 模 。 














关于 MLP 的 一 个 基本 问题 是 : 这 样 的 结构 来 表示 输入 - 输 昌 
舌 说 ， 给 定 一 个 函数 f(z 
够 很 好 地 逼近 函数 f。 虽然 感知 器 的 建 模 能 力 有 限 ， 只 能 月 
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间 中 的 一 个 超 平面 分 开 
节点 , 拥有 一 个 隐藏 
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这 是 一 个 有 趣 的 结果 : E 
织 起 来 , FH 
事 而 言 ， 这 是 一 个 非常 棒 的 “存在 性 ”结果 。 而 对 了 


KZO 以 层 的 方式 组 
对 于 数学 专业 的 同 
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) 是 否 存 在 一 个 MLP 网 
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于 无 限 输出 值 ， 而 S 型 输出 函数 更 适合 

















HN, 灵活 性 有 多 大 ? KA 
络 和 特定 的 权重 , 使 得 这 个 MLP 的 输出 能 





























的 分 类 问题 , 但 是 MLP 去 





于 两 种 模式 ( 即 输 入 ) 能 被 输入 空 
是 一 种 通用 逼近 631: 如 果 有 足够 多 的 隐藏 














的 MLP 能 够 以 
日 与 神经 类 


至 少 


























王 何 精度 允 近 任何 光滑 函数 。 
似 的 架构 , 将 简单 的 单元 (线性 车 加 科 
一 个 隐藏 


0 挤 压 S 型 传递 
> 就 能 模拟 任何 光滑 输入 -输出 的 函数 。 
偏 应 用 方向 的 同 









































E, 接 下 来 的 一 个 问题 是 : 已 知 存在 一 个 MLP 逼近 , 怎样 从 已 标记 的 实例 开始 快速 找到 它 ? 
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在 阅读 了 上 一 章 后 ,你 应 该 已 经 知道 至 少 一 种 可 能 的 方法 。 试 着 想 一 想 , 然后 再 继续 读 
下 一 节 。 

作为 MLP 输入 -输出 变换 的 例子 , 图 9-4 展示 了 不 同 的 输入 参数 对 应 输出 值 的 光滑 非 线 
性 的 演化 。 通 过 使 用 滑 块 ,可 以 固定 输入 值 的 一 个 子 集 ， 并且 两 个 所 选 输入 参数 的 值 域 对 应 
的 输出 用 不 同 颜 色 表 示 。 


| < New workbench - LONSS 




































































图 9-4 用 LION 软件 Sweeper 分 析 神 经 网 络 的 输出 。 输 出 值 和 冬季 加 热 房 子 消耗 的 能 量 ,是 
输入 参数 的 函数 。 图 中 展示 了 颜色 编码 的 输出 〈 左 ) 和 表面 图 ( 右 )。 非 线性 是 可 见 的 
( 男 见 彩 插 ) 


9.2 ”通过 反 向 传播 法 学 习 


跟 往 常 一 样 , 选择 一 个 “向 导 ” 函 数 进行 优化 , 像 传 统 的 训练 实例 上 的 平方 误差 和 , 保证 
它 是 光滑 的 〈 可 导 ),， 并 使 用 梯度 下 降 法 。 和 迭代 地 计算 函数 关于 权重 系数 的 梯度 ， 并 且 朝 着 负 
梯度 的 方向 移动 一 小 步 如 果 梯 度 不 是 0, 那么 就 存在 一 个 足够 小 的 步子 , 沿 着 负 梯 度 的 方向 ， 
能 够 使 得 函数 值 减 小 。 

现在 的 技术 问题 就 是 使 用 微 积分 中 的 链 式 法 则 来 计算 偏 导数 ,以 求 得 两 个 或 更 多 函数 的 
复合 函数 的 导数 。 如果 fA g 分 别 是 一 个 函数 , 然后 链 式 法 则 指明 如 何 从 f g 的 导数 计算 
出 复合 函数 fog 的 导数 。 例 如，(f og)(z) 的 链 式 法 则 是 : 

df _ df dg 



































dz dg dz 

MLP 中 的 基本 函数 是 : 标量 积 ， 然 后 是 S 型 函数 , 接 下 来 又 是 标量 积 , 如 此 反复 一 直到 
输出 层 , 计算 误差 。 对 于 MLP 网 络 , 其 梯度 可 以 被 高 效 地 计算 , 它 的 计算 需要 的 操作 数 正比 
于 权重 系数 的 数量 , 实际 计算 中 所 用 的 简单 公式 与 向 前 传递 (从 输入 到 输出 ) 的 类 似 , 只 是 现 
在 的 方向 不 一 样 ， 从 输出 误差 到 输入 。 神 经 网 络 中 的 一 个 流行 的 技术 是 通过 误差 的 反 向 传播 
进行 学 习 , 它 刚 好 包含 在 上 面 提 及 的 练习 里 : 梯度 计算 和 沿 着 负 梯 度 的 小 步 移动 215, 116, 9 。 
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令 人 恢 奇 的 是 ,梯度 下 降 法 的 一 个 直接 应 用 , 直到 20 世纪 80 年 代 末 才 被 广泛 使 用 ,并 
是 为 使 其 流行 起 来 的 研究 人 员 带 来 了 如 此 高 的 声望 。 一 个 可 能 的 原因 是 , 梯度 下 降 法 通常 被 
认为 是 一 个 “ 普 普 通通 ”的 方法 ， 只 能 达到 局 部 最 优点 (梯度 为 0)， 并 不 能 保证 是 全 局 最 优 
解 。 因 此, 用 随机 的 小 的 权重 系数 初始 化 网 络 后 , 需要 在 不 同 问题 上 进行 实验 , 来 证 明 梯 度 下 
降 对 于 训练 MLP 的 现实 可 用 性 。 另 外 , WE ML 的 目标 是 泛 化 , 对 于 这 一 目标 , 全 局 最 优 并 
非 必要 。 全 局 最 优 甚至 会 适得其反 , 并 且 导 臻 过 度 训练 。 
带 有 简单 和 局 部 机 制 的 逐步 适应 的 使 用 与 神经 系统 有 着 紧 密 的 联系 , 虽然 真正 的 神经 元 
如 何 具体 实现 梯度 下 降 算 法 仍然 是 一 个 研究 课题 。 
注意 ,网 络 训练 完 之 后 ， 从 输入 开始 计算 输出 需要 一 些 简 单 的 运算 ,次数 正 比 于 权重 系 
数 的 个 数 ， 因 此 如 果 权重 系数 的 个 数 是 有 限 的 , 这 一 操作 就 可 以 非常 快 地 完成 。 

接 下 来 简要 地 定义 符号 。 考 虑 “标准 的 ”多 层 感知 器 构架 ， 只 有 相 邻 的 层 之 间 有 权重 系 
数 ， 差 平方 和 能 量 函 数 定义 为 : 


ie iene 
E(w) = 5 Ep = 5 t 一 0p(w))? (9.1) 
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p 
其 中 如 和 op 分 别 是 模式 p 的 目标 值 和 当前 输出 值 。$S 型 传递 函数 是 f(x) = 1/(1+e7*). 
现在 可 以 用 在 某 个 范围 内 随机 分 布 的 初始 权重 系数 来 初始 化 。 选 择 一 个 初始 化 范围 ， 像 
(一 0.5,0.5)， 并 不 是 很 容易 的 工作 ,如果 权 各 系数 太 大 ,标量 积 将 处 于 S 型 函数 的 饱和 区 域 ， 
导致 梯度 接近 于 零 以 及 数值 问题 。 
在 下 面 的 章节 中 , 我 们 将 展示 两 个 “基于 梯度 的 ”技术 : 标准 的 批量 反问 传播 和 一 个 带 有 
自 适 应 学 习 速 率 (bold driver BP， 见 参考 文献 | 各)， 以 及 在 线 随机 反 向 传播 197). 
9.2.1 ”批量 和 bold driver 反 向 传播 法 


批量 反 向 传播 法 (batch backpropagation) 是 梯度 下 降 法 的 一 个 教科 书 版 本 。 在 得 到 了 梯 
度 中 所 有 偏 导数 后 , 记 为 gs = VE(wk) FREAR k+1 的 权重 系数 被 下 面 的 式 子 更 新 为 : 





















































































































































Wk4+1 = Wk — € Gk (9.2) 


以 前 的 更 新 具有 固定 的 学 习 率 e,， 可 以 看 作 是 粗糙 版 本 的 最 速 下 降 (steepest descent), 
每 次 迭代 都 搜索 沿 梯度 方向 上 的 确切 最 小 值 : 



































Wk+1 = Wk 一 €kGk (9.3) 


其 中 e 最 小 化 E(wi 一 eg) (9.4) 


对 于 一 个 特定 的 学 习 问 题 ， 如 何 挑选 一 个 合适 的 学 习 速 率 是 个 很 现实 的 问题 。 学 习 速 率 不 应 
该 太 小 ， 避免 学 习 时 间 过 长 (每 次 迭代 权重 系数 的 改变 都 很 小 ), 学 习 速 率 也 不 应 该 太 大 ， 避 
免 震荡 导致 的 能 量 函 数 疯 长 (应 该 记 住 ,只 有 在 步子 很 小 时 , 沿 着 梯度 方向 的 改变 才能 保证 
函数 值 减少 )。 
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有 一 个 启发 式 的 建议 ， 可 以 避免 这 样 的 选择 ， 它 在 学 习 任 务 运行 时 改变 学 习 速 率 。 这 一 
方法 称 为 bold driver (BD )， 参 考 文献 [4] 对 它 有 所 描述 。 如 果 连 续 的 步骤 使 得 能 量 降低 , A 
么 学 习 速 率 就 指数 式 增加 。 如 果 遇 到 了 一 个 “意外 ”( 如 果 友 增加 ), 那么 学 习 速 率 就 迅速 减 
小 , 直到 找到 一 个 合适 的 值 。 从 一 个 很 小 的 学 习 速 紊 开始, 它 的 改变 用 下 面 的 式 子 描述 : 
«=| pe(t—1) E(w(t)) < E(w(t —1)) 


































































































ol e(t—1) E(w(t)) > E(w(t —1)) 使 用 et 一 了 (%5) 
其 中 p 接近 于 1 (po = 1.1)， 是 为 了 避免 频繁 的 “意外 ”， 这 些 情 况 下 能 量 值 的 计算 都 被 浪费 
T, o 的 选择 应 满足 快速 减 小 (o = 0.5)，! 是 能 成 功 减 少 能 量 的 减 小 率 olet- 1) 的 最 小 整 















































这 种 自 适应 bold driver 反 向 传播 的 表现 接近 于 (通常 也 优 于 ) 适当 选择 一 个 国定 的 学 习 
速率 所 得 到 的 。 然 而 ， 作 为 最 速 下 降 的 一 个 简单 形式 ， 这 些 技术 也 受到 使 用 梯度 作为 搜索 方 
向 的 技术 的 共同 限制 。 

9.2.2 ”在 线 或 随机 反 向 传播 

由 于 能 量 函数 E 是 许多 项 的 和 ， 每 一 项 对 应 一 个 模式 ， 因 而 梯度 将 是 相应 的 局 部 梯度 
VE,(we) KA, VEp(we) 是 第 p 个 模式 中 误差 的 梯度 (tp 一 op(w))?。 

如 果 某 人 有 上 百 万 训练 实例 ,首先 对 贡献 VE lwe) 进行 求 和 , 然后 走 一 小 步 。 

于 是 ， 马 上 会 想到 : 在 计算 一 个 VE,(wx) 后 立即 沿 着 负 的 方向 走 一 小 步 会 如 何 呢 ? 如 果 
这 一 步 非常 小 , 得 到 的 权重 与 初始 的 差别 将 很 小 , 并 且 接 下 来 的 梯度 VE, (ways) 将 非常 类 似 
于 原始 的 那些 VB, (we) « 

如 果 以 随机 的 顺序 选择 模式 , 可 以 得 到 所 谓 的 随机 梯度 下 降 ， 又 称 作 在 线 反 向 传播 法 。 
顺便 说 一 句 ， 因 为 生物 神经 元 不 是 很 擅长 复杂 和 长 期 的 计算 ， 所 以 在 线 反 向 传播 具有 多 
种 生物 学 的 意义 。 例 如 ， 如 果 一 个 孩子 正在 学 习 识 别 数 字 ， 当 他 犯 了 一 个 错时 ， 应 该 立即 纠 
正 ， 而 不 是 等 收集 了 成 百 上 千 的 错误 之 后 再 纠正 。 

在 线 随 机 反 向 传播 的 更 新 由 下 式 给 出 : 

Wrt1 = We — € VEp(we) (9.6) 
其 中 模式 p 是 每 次 迭代 时 从 训练 集中 随机 选择 的 , e 是 学 习 速率 。 许多 情况 下 , 这 种 形式 的 反 
向 传播 已 经 成 功 使 用 , 条 件 是 用 户 选择 了 适当 的 学 习 速率 。 该 方法 的 主要 困难 是 , 该 迭代 过 程 
不 保证 收敛 , 并 且 使 用 梯度 作为 搜索 方向 对 一 些 问 题 “ 是 非常 低 效 的 。 相 对 于 批量 反 向 传 扫 
也 就 是 E 的 完整 梯度 被 用 作 搜 索 方 向 ， 这 种 在 线 方法 的 竞争 优势 在 于 ， 局 部 梯度 VE, (we) 
只 需要 单一 的 向 前 和 向 后 传递 , 因此 该 方法 的 不 精确 性 可 以 通过 单 次 迭代 所 需 的 较 低 计算 量 
进行 补偿 , 特别 是 训练 集 很 大 并 且 由 见 余 模式 组 成 时 。 这 些 情况 下 ,如 果 学 习 速 率 是 合适 的 ， 
收敛 的 实际 CPU 时 间 可 以 是 很 少 的 。 


@ 精确 的 说 法 是 病态 问题 。 
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小 批量 BP 是 批 处 理 和 在 线 版 本 之 间 的 第 三 个 折 中 选项 。 这 种 情况 下 ,仅仅 在 一 个 随机 
大 小 为 B 的 模式 子 集 ( 批 ) 上 运行 向 前 和 向 后 传播 来 积累 部 分 梯度 。 每 B 个 向 前 传播 修改 权 
E, 当然 , 极端 的 情况 是 , B 等 于 1 时 相当 于 在 线 BP, B 等 于 模式 的 总 数量 时 相当 于 批量 BP. 

学 习 速 率 必 须 精心 选择 : 如 果 e 过 小 , 即使 训练 时 间 增 加 ， 也 不 会 产生 更 好 的 泛 化 结果 ; 
而 如 果 e 增 大 超过 某 一 定点 , 振荡 会 逐渐 变 得 剧烈 并且 所 获得 泛 化 的 不 确定 性 会 增加 。 
9.2.3 ”训练 多 层 感 知 器 的 高 级 优化 

认识 到 优化 对 于 机 器 学 习 的 重要 性 之 后 , 研究 人 员 就 开始 使 用 优化 的 相关 文献 中 提 到 的 
技术 , 即 在 搜索 过 程 中 使 用 更 高 阶 导数 的 信息 , 而 不 仅仅 是 梯度 下 降 。 共 思 梯 度 法 和 “ 制 线 ” 
法 是 两 个 例子 , 即 仅 使 用 梯度 信息 ,以 迭代 的 方法 更 新 ( 黑 塞 算 阵 的 ) 二 阶 导 数 的 近似 值 。 实 
际 上 ， 众 所 周知 的 是 ， 如 果 黑 塞 矩 阵 的 条 件数 很 大 ， 使 用 梯度 作为 当前 搜索 方向 的 收敛 速度 
会 非常 慢 。 形 象 的 说 法 是 , 这 对 应 于 搜索 空间 里 由 “狭窄 山谷 ”导致 的 曲折 的 搜索 路 径 ， 见 图 
21-9。 基 于 二 阶 信息 的 技术 在 神经 网 络 社区 广泛 使 用 , 它们 的 效用 已 经 得 到 认可 , 特别 是 权重 
系数 数量 有 限 (<100) 并 要 求 高 精度 输出 值 的 情况 。 参 考 文献 [5] 中 列 出 了 部 分 书目 和 不 同 的 
二 阶 技术 之 间 的 关系 。 两 种 使 用 二 阶 导 数 信息 (以 间接 和 快速 的 方式 ) 的 技术 , BSE REE 
和 具有 快速 线 搜索 的 一 步 制 线 方法 (OSS), 在 参考 文献 5 和 [4] 中 有 所 描述 。 更 多 细节 将 在 
本 书 有 关连 续 函 数 优 化 的 第 21 章 加 以 探讨 。 
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创建 基于 “真实 神经 网 络 ” 的 人 工 智 能 是 人 工 神 经 网 络 研究 的 课题 。 多 层 感知 器 神经 
网 络 (MLP) 是 一 种 灵活 的 ( 非 参数 ) 建 模 架构 ， 由 S 型 单元 的 层 组 成 ， 仅 相 邻 层 之 间 以 
前 馈 方式 相互 连接 起 来 。 识别 你 的 祖母 出 现在 图 像 中 的 概率 的 单元 , 可 以 用 我 们 的 神经 便 
ME CETERE 建 模 成 一 个 MLP 网 络 。 人 们 可 以 通过 梯度 下 降 法 的 变形 从 已 标记 的 实 
例 中 进行 有 效 的 培训 , 这 一 方法 通常 称 作 “误差 反 向 传播 ”。 作 为 优化 方法 , 梯度 下 降 的 弱 
点 并 不 会 影响 实际 的 效果 。 

人 类 学 习 和 机 器 学 习 模 式 之 间 的 确 有 着 惊人 的 相似 之 处 。 尤其 注意 一 点 , 在 训练 过 程 
中 越 努 力 ， 提 高 泛 化 能 力 方面 所 得 到 的 回报 就 越 多 。 一 个 严厉 的 老师 〈 在 黑板 上 写 多 样 化 
的 测试 题 ， 要 求 你 做 笔记 ， 而 不 是 提供 预习 材料 ) 可 能 在 训练 中 使 你 痛苦 , 但 会 增强 你 日 
后 人 生 中 的 精神 力量 。 德国 哲学 家 黑 格 尔 在 定义 哲学 的 作用 时 使 用 了 术语 Anstrengung des 
Begriffs (“定义 概念 所 做 的 努力 ”)。 
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单 走 一 步 不 会 在 地 球 上 走出 一 条 路 ， 单 一 的 思想 也 不 会 在 
头脑 中 连 成 路 径 。 要 走出 一 条 很 深 的 路 ， 我 们 要 一 次 又 一 次 地 
走 。 要 走出 一 条 深刻 的 精神 之 路 , 我 们 必须 一 遍 又 一 遍地 思考 ， 
我 们 希望 能 支配 我 们 生活 的 那 种 想法 。 

一 一 亨利 KE AF 





现在 机 器 学 习 正 经 历 着 一 场 软 革 命 , 很 久 以 前 诞生 的 想法 正 迎 来 第 二 次 青春 。 深 度 学 习 

和 卷 积 网 络 是 有 前 途 的 方向 ， 但 我 们 也 会 考虑 其 他 替代 品 和 重要 方向 ， 例 如 后 续 章 节 会 提 到 
的 储备 池 和 超 限 计算 。 
有 这 样 一 则 轶 事 : 杰 弗 里 E 辛 顿 教授 率领 的 研究 生 团 队 在 最 后 一 分 钟 决 定 参 加 一 场 
比赛 ,他 们 使 用 一 种 深度 学 习 系 统 ， 该 系统 的 开发 没有 用 到 特定 的 领域 知识 , 却 在 2012 Fi 
得 了 最 高 奖项 。 该 系统 可 以 预测 哪些 分 子 最 有 可 能 是 一 种 有 效 的 药物 。 今天 许多 高 级 的 计算 
机 视觉 和 语音 识别 应 用 是 基于 深度 网 络 的 。 

这 一 章 介 绍 深度 神经 网 络 (deep neural network) 和 卷 积 网 络 (convolutional network). 
深度 网 络 的 长 期 目标 是 完全 自动 从 大 量 的 数据 (包括 已 标记 和 未 标记 的 ) 中 直接 开发 智能 系 
Si, 而 不 用 在 训练 系统 之 前 由 人 类 专家 手动 提取 有 用 的 特征 。 总 体 计划 是 有 一 个 分 层次 的 前 
馈 网 络 , 它 是 自 组织 的 , 使 得 前 儿 层 能 够 提取 基本 构造 块 (特征 ), 在 随后 的 层 里 结合 它们 获 
得 越 来 越 复杂 的 特征 (例如, 图像 处 理 中 在 平移 或 旋转 下 不 变 的 特征 )。 卷 积 网 络 预 布置 适用 
于 某 一 领域 (典型 的 例子 是 计算 机 视觉 和 语音 处 理 ) 的 架构 ,其 方法 是 插入 约束 , 例如 感受 野 



































































































































































































































10.1 深度 神经 网 络 85 
(receptive field) 的 局 部 性 ， 以 及 分 享 权重 。 在 我 们 的 视觉 系统 和 图 像 处 理 系 统 中 ， 基 本 的 本 
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10.1 深度 神经 网 


PAN Meat, 那么 会 浪费 宝贵 的 资源 ， 而 


j 会 受到 惩罚 。 


地 筛选 操作 ,例如 对 比 度 增 强 或 边缘 检测 ， 在 整个 图 











像 上 都 有 应 用 。 如 果 ML 给 每 个 像素 标 
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神经 学 研究 的 大 量 ii 




















| 不 要 忘记 这 个 系统 是 用 二 维 结构 和 局 部 





F 据 表明 ， 人 类 的 大 脑 首 

















阶段 提取 更 高 层次 的 概念 。 为 了 识别 你 的 祖母 ， 视 觉 皮 





(强度 的 突然 变化 ), 然后 











先 提取 有 用 的 表示 ， 然 后 逐步 复杂 ， 如 此 分 





层 首先 检测 简单 的 元 素 ， 如 图 像 边 缘 


逐渐 识别 更 高 级 别 的 概念 , 比如 眼睛 、 嘴 巴 和 复杂 的 几何 特征 , 它们 








独立 于 图 像 中 的 特定 位 


置 、 亮 度 、 颜 色 等 。 
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容易 的 ， 也 不 意味 着 只 需要 少量 的 实例 和 少量 的 CPU 时 间 。 
论 依据 表明 : 如 果 考 虑 多 个 隐藏 层 , 更 容易 建立 某 些 类 的 输入 - 输 

















证 据 ， 也 有 





理 




















近来 说 ,存在 一 个 隐藏 层 就 足够 了 ,但 这 并 不 意味 着 建立 这 种 逼近 是 

















除了 在 大 脑 中 神经 系统 研究 的 














21] 。 





映射 


ML 研究 的 梦想 是 将 实例 输入 有 许多 隐藏 层 的 MLP, 让 MLP 自动 发 展 出 内 部 表示 〈 隐 
藏 层 单元 的 激活 模式 )。 训 练 算法 应 该 确定 连接 低 





次 的 表示 对 应 了 
发 展 出 有 






































六 “概念 ”， 这 对 最 终 复 杂 的 分 类 任务 是 有 月 
用 的 规律 “ 金 块 ”。 
这 个 梦想 实现 起 来 有 一 定 的 实际 障碍 。 当 在 








包含 许 














更 靠近 感觉 输入 )， 使 得 中 间 层 
层 可 以 从 数据 中 


层 的 权重 
HAY. AAA, BIL 





























多 隐藏 层 的 MLP W28 EDF 





有 有 反 疝 传 

















播 法 时 ， 第 一 层 权 习 





E HJA 








RAEI — Fe ALE 
混 消 在 一 起 。 此 外 ， 


E, A 
tA 








b 么 效果 会 
0 的 单元 〈 输 日 


导数 往往 是 非常 小 的 , 因 
癌 上 传播 许多 


























出 中 的 效果 非常 不 
的 层 做 一 些 “ 有 用 的 ”了 
(正如 深度 神经 网 络 的 情 

















明显 。 前 几 层 内 部 表示 造成 的 疤 
[ 作 的 效果 差不多 。 从 另 一 个 角度 来 看 , 当 参 数 的 数量 大 于 实例 的 数 
更 加 危险 ， 


得 
F 





况 )， 过 度 训练 将 变 





z mi 
HPA) S 型 函数 的 平坦 区 域 ) 会 挤 压 变化 ， 使 得 最 终 和 输 











问题 。 这 很 容易 理解 “: 如 
他 单元 的 影响 


值 估 计 会 虽 


昌 它 往往 会 与 数 百 个 





此 数 
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效应 ， 和 随机 设置 前 儿 层 , 只 留 下 最 上 面 
H 


青 况 下 ， 网 络 是 很 容易 适 


























因为 这 种 ' 


应 训练 实例 的 , 无须 提取 相关 规律 ， 而 这 些 规 律 却 是 泛 化 必 不 可 少 的 。 











在 20 | 
有 附加 约束 的 线 怕 


Hz 90 年 代 ， 





最 近 , 深度 神经 网 络 (有 许多 
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到 了 台 前 ,在 一 些 充满 9 
的 分 子 活 忆 























这 些 困 难 使 得 不 少 月 


昌 户 的 注意 力 转 向 了 “更 简单 ”的 模型 ， 


基于 带 











隐藏 层 的 MLP) 
t 战 的 领域 分 类 表现 出 色 ， 




















E。 不 用 任何 特别 设计 的 特征 方法 (根据 专业 领 





1E), 深度 学 


习 就 可 以 取得 令 人 满意 的 结果 ,以 及 技术 层面 的 显著 提升 2 。 











FÉ 


D 如 果 你 对 偏 导 数 不 熟 悉 ， 
在 Aw 趋 近 于 零 时 的 极限 。 








1 是 深度 学 习 的 最 新 应 用 的 主要 方案 : 





想 想 如 果 权 重 有 少量 的 改变 (Aw 





ERS, Wi 11 章 考虑 的 支持 向 量 机 。 





的 复兴 和 更 强大 的 训练 技巧 将 深度 学 习 带 
如 语音 识别 、 图 像 处理 ， 以 及 药物 应 用 中 
或 知识 和 初步 实验 来 手动 调整 新 特 





















































), 那么 输出 会 有 什么 改变 (A 了 )。 偏 导数 是 比值 Af/Aw 
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(1) 使 用 许多 未 标记 的 实例 进行 无 监督 学 习 
训练 ); 
(2) 在 以 无 监督 的 方式 训练 了 初始 网 络 后 , 仅 使 用 已 标记 的 实例 和 反 向 传播 算法 做 最 后 的 
调整 。 
对 于 未 标记 (未 分 类 ) 的 实例 数目 比 已 标记 的 实例 数目 大 很 多 ， 并 且 分 类 过 程 开销 较 大 
的 情况 , 该 方案 是 非常 强大 的 。 举例 来 说 , 通过 抓 取 网 页 收集 大 量 的 未 标记 图 像 , 现在 是 很 简 
单 的 任务 了 。 然而 , 让 人 来 描述 图 像 内 容 并 标记 它们 , 开销 则 相对 大 得 多 。 无 监督 系统 负责 提 
取 有 用 的 构建 块 ,比如 边缘 、 斑 点 ， 以 及 不 同类 型 的 纹理 的 探测 器 。 一 般 来 说 , 构建 块 提 取 自 
真实 图 像 ， 而 不 是 “ 坏 的 电视 机 屏幕 ”里 的 随机 模式 。 


10.1.1 ”自动 编码 器 


一 个 构建 内 部 表示 的 有 效 的 无 监督 方式 就 是 自动 编码 器 。 我 们 建立 一 个 带 隐 藏 层 的 网 络 ， 
并 要 求 输出 简单 地 再 现 输入 。 这 乍 一 听 上 去 愚蠢 而 无 意义 ,但 插入 一 个 隐藏 层 可 以 完成 有 趣 
的 工作 , 因此 要 求 输入 的 原始 信息 被 压缩 成 比 原 信 息 的 变量 更 少 的 编码 ce) LE 10-1)。 可 
以 肯定 , 这 种 压缩 无 法 让 所 有 可 能 输入 都 按 原样 章 建 。 但 是 , 这 对 我 们 的 目标 而 言 是 积极 的 : 
内 部 表示 cx) 将 被 迫 发 抉 系统 的 特定 输入 模式 中 的 规律 性 , 以 从 原始 输入 中 提取 有 用 和 显著 
的 信息 。 


以 此 准备 初始 状态 下 的 深度 网 络 (无 监督 预 
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图 10-1 自动 编码 器 











例如 ， 如 果 识 别 脸 部 图 像 ， 会 有 一 些 内 部 单元 专门 检测 边缘 ， 另 一 些 单元 也 许 会 专门 检 
测 眼睛 , 等 等 。 

自动 编码 器 可 以 通过 反 向 传播 及 其 变 体 进 行 培训 。 分 类 标签 是 没有 必要 的 。 如 果 初 始 输 
入 的 标记 是 分 类 , 这 一 阶段 系统 只 是 简单 地 态 记 标签 。 此外, 为 了 训练 更 有 健壮 性 , 即 能 够 更 
好 地 进行 泛 化 , 可 以 再 添加 大 量 未 标记 的 实例 。 

自动 编码 器 建立 后 ,现在 可 以 将 隐藏 层 结构 (权重 和 隐藏 单元 ) 移植 到 第 二 个 网 络 进 行 
分 类 ( 见 图 10-2), 添加 一 个 附加 层 (以 较 小 的 随机 权重 初始 化 ), 并 将 这 个 “ 弗 兰 肯 斯 坦 式 怪 
物 ” 网 络 作为 训练 分 类 器 的 最 后 阶段 的 起 点 。 在 这 个 最 后 阶段 , 只 使 用 一 组 被 标记 的 模式 。 
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图 10-2 ”使 用 以 未 标记 数据 训练 的 自动 编码 器 来 初始 化 一 个 MLP 网 络 





在 许多 重要 应 用 中 ,， 相 比 于 通过 随机 初始 化 所 有 权重 获得 的 网 络 ， 这 样 最 终 形成 的 网 络 
具有 较 好 的 泛 化 性 能 。 请 注意 , 相同 的 初始 化 正确 的 网 络 可 用 于 不 同 但 相关 的 监督 训练 任务 。 
网 络 以 相同 的 方式 初始 化 , 但 最 终 调整 阶段 使 用 不 同 的 已 标记 实例 。 将 解决 一 个 问题 得 到 的 
知识 应 用 于 一 个 不 同 但 相关 的 问题 ， 称 为 迁移 学 习 。 例 如 ， 识 别人 脸 的 知识 也 可 以 用 于 识别 
猴子 。 

细心 的 读者 可 能 已 经 注意 到 , 到 现在 为 止 上 只 创建 了 一 个 隐藏 层 。 但 是 , 我 们 可 以 很 轻松 地 
通过 人 迭代 链 式 地 产生 后 续 层 ,压缩 第 一 个 编码 c(z)， 再 自 编 码 ， 得 到 第 二 个 更 为 压缩 的 编码 
和 内 部 表示 c(c(z))。 同 样 ， 自 编码 的 权重 可 以 用 来 初始 化 网 络 的 第 二 层 , SES ( 见 图 10-3)。 






























































图 10-3 和 迭代 训练 自动 编码 器 来 构造 更 深 的 网 络 





除了 用 于 预 训练 神经 网 络 ， 层 次 很 深 的 自动 编码 器 还 可 以 用 于 可 视 化 和 聚 类 。 例 如 ， 路 
透 社 新 闻 故 事 " 表 示 为 2000 个 最 常见 单词 词根 文档 特定 的 概率 向 量 , 可 以 自动 编码 , 使 瓶颈 
压缩 层 只 含有 两 个 单元 。 对 应 于 故事 的 二 维 坐标 可 见于 岁 10-4 的 二 维 平面 。 不 同 的 聚 类 近似 
地 对 应 于 不 同 的 标题 , 这 是 在 二 维 空间 明确 可 见 的 , 因此 两 个 〈 或 多 个 ) 坐标 可 以 是 聚 类 对 象 
很 好 的 出 发 点 。 












































© 路 透 社 语料库 卷 2 可 以 在 http://trec.nist.gov/data/reuters/reuters.html 找到 。 
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图 10-4 代码 由 一 个 2000-500-250-125-2 自 编码 器 根据 路 透 社 的 新 闻 故 事 生 成 。 图 中 用 不 同 的 











颜色 对 应 于 不 同 主题 的 聚 类 , 这 是 清晰 可 见 的 〈 详 见 参考 文献 [57], 男 见 彩 插 ) 
































层 的 最 佳 数 目 和 “人 金字塔 ”结构 中 的 单元 的 最 佳 数目 仍然 是 
































参考 文献 [21]。 
10.1.2 ”随机 噪声 、 屏 菩 和 课程 





结合 无 监督 的 预 训练 与 有 监督 的 最 终 调整 以 获得 越 来 越 深 的 网 络 , 现在 你 该 














玄 为 这 一 想法 


个 研究 课题 ， 但 是 可 以 用 


务实 的 方法 来 得 到 合适 的 数目 ， 通 过 使 用 某 种 形式 的 交叉 验证 来 选择 合适 的 元 参数 。 详 情 见 





感到 兴奋 ， 这 样 做 能 使 最 先进 的 性 能 需要 的 手工 特征 设计 越 来 越 少 。 现 在 讨论 一 些 更 先进 的 








=| & 


可 能 性 ， 目前 这 些 党 试 已 从 纯粹 的 研究 转移 到 现实 应 用 。 
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第 一 种 可 能 性 是 注入 可 控制 范围 内 的 噪声 到 系统 O 〈 去 噪 自动 编码 器 )。 初 始 想法 很 简 
: 给 每 个 模式 xz 加 入 随机 噪声 〈 例 如 ， 如 果 模 式 是 二 进 制 的 ， 以 一 个 给 定 的 小 概率 值 
个 二 进 制 位 ), 并 在 自 编码 网 络 里 重 构 原 始 无 噪声 模式 z, 给 已 污染 的 输入 去 骂 。 这 项 任务 


翻转 


变 得 更 加 困难 , 但 鼓励 系统 努力 从 输入 模式 中 提取 更 强大 也 更 显著 的 规律 。 这 个 版 本 弥补 了 














与 深度 信念 网 络 (DBN) 之 间 的 性 能 差距 ， 并 且 在 一 些 情况 下 还 








男 一 种 预 训练 网 络 的 方式 56,591。 从 生物 学 的 角度 来 说 , 在 潮湿 的 大 脑 物质 中 ， 





噪声 。 这 些 结果 表明 , 噪声 事实 上 能 够 对 学 习 产 生 积极 的 影响 ! 











还 有 一 种 方法 , 通过 随机 屏 菩 (5 引 ， 学 习 的 问题 会 更 加 困难 , 但 
减少 过 度 拟 合 ): 在 随机 反 向 传播 的 训练 中 , 展示 了 每 个 训练 实例 后 , 每 个 隐藏 
































能 超过 它 。 深 度 信 念 网 络 是 
的 确 有 很 多 的 

















泛 化 的 性 能 会 更 好 〈 通 过 
































络 中 忽略 的 概率 是 0.5。 这 种 方式 避免 了 训练 数据 之 间 复 杂 的 互相 





适应 。 各 个 单元 不 能 依靠 





处 其 他 的 隐藏 单元 , 并 且 最 好 成 为 识别 有 用 信息 的 探测 器 , 这 与 其 他 单元 在 做 什么 无 关 。 





















































打破 了 共 适 应 基因 的 集合 。 使 用 一 大 组 共 适 应 基因 实现 一 个 功能 ， 









































现 同 样 的 功能 那样 健壮 ， 其 中 每 个 方式 只 使 用 少量 的 共 适 应 基因 。 








有 趣 的 是 , 屏蔽 和 性 在 进化 中 所 起 的 作用 有 某 种 奇妙 的 相似 性 。 














元 随机 在 网 


二 此 


一 种 可 行 的 解释 是 ,性 


不 如 使 用 多 个 蔡 代 方式 实 
这 能 够 使 得 进化 避免 走 进 
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死胡同 ， 如 果 走 进 死胡同 的 话 ， 适 应 度 的 改进 需要 协调 大 量 共 适 应 基因 的 变化 。 它 也 减少 了 
环境 中 小 的 变化 导致 适应 性 急剧 下 降 —— 类 似 于 ML 领域 里 的 “过 拟 合 ”现象 -发生 的 
概率 中。 

某 种 程度 上 ,随机 丢弃 一 些 单元 与 在 不 同 的 时 间 使 用 不 同 的 网 络 体系 结构 进行 训练 相关 ， 
然后 在 测试 期 间 计算 结果 的 平均 值 。 集成 不 同 网 络 是 减少 过 度 训练 并 提高 泛 化 的 另 一 种 方式 ， 
会 在 后 面 的 章节 中 加 以 说 明 。 通 过 随机 屏 项， 不同 的 网 络 被 包含 在 一 个 相同 的 完整 MLP 网 
络 里 (通过 激活 完整 网 络 的 选 定 部 分 得 到 )。 
训练 MLP 时 ,改进 最 终结 果 的 另 一 种 可 能 性 是 利用 课程 学 习 g9。 正 如 入 们 学 习 的 时 候 ， 
训练 实例 并 不 是 一 次 性 提供 给 神经 网 络 ， 而 是 分 步 的 ， 首 先 从 最 简单 的 实例 开始 ， 然 后 才 是 
比较 复杂 的 。 例 如 , 学 习 音乐 的 时 候 ， 首先 是 了 解 单个 音符 ,然后 才 是 更 为 复杂 的 交响 乐 。 通 
过 自 编码 来 进行 预 训练 ,可 以 被 当 作 课程 学 习 的 初步 形式 。 类 比 于 语言 学 习 ， 首 先 学 习 者 接 
触 大 规模 的 某 种 语言 的 口语 材料 (例如 ,观看 某 种 外 语 电 视频 道 )。 当 耳 条 经 过 训练 , 适应 了 
这 门 外 语 的 发 音 特 征 之 后 , 就 为 接 下 来 更 为 正式 的 语句 翻译 训练 做 好 了 准备 。 

总 之 ， 一 边 睡觉 一 边 听 录音 来 学 习 语言 的 魔法 系统 也 许 不 完全 是 骗局 。 
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高 等 动物 的 大 脑 能 快速 学 习 处 理 图 像 并 辨识 其 中 的 内 容 。 婴 儿 在 出 生 后 的 第 一 天 就 已 经 
能 认 出 自己 的 母亲 了 。 如 果 没 有 已 经 适用 于 处 理 二 维 图 像 的 预 布置 的 体系 结构 的 帮助 ， 这 样 
的 辨识 速度 几乎 是 不 可 能 达到 的 。 局 部 性 尤其 起 着 重要 作用 : 前 面 的 神经 元 有 邻近 感受 野 , 处 
理 投影 到 视网膜 中 的 图 像 的 邻近 点 ， 并且 映射 到 视觉 皮层 中 的 邻近 点 。 生 物 大 脑 中 存在 特定 
的 低 等 探测 器 , 例如 边缘 探测 器 或 运动 探测 器 。 

例如 ， 当 分 析 蛙 类 的 “ 开 - 关 ” 神 经 节 细 胞 时 ， 这 种 细胞 对 从 亮 到 暗 和 从 瞳 到 亮 的 变化 都 
有 反应 , 而 感受 野 非常 受 限 (大约 在 可 捕猎 距离 内 的 一 只 苍蝇 的 大 小 )， 因此 难免 得 到 这 样 的 
结论 : 开 - 关 单元 与 刺激 相 匹 配 ， 并 充当 苍蝇 探测 器 的 职能 四 ( 见 图 10-5)。 

当 考 虑 人 工 神 经 网 络 时 , 基本 可 以 确认 , 如 果 图 像 处 理 的 一 些 知识 预 布置 在 神经 网 络 中 ， 
那么 图 像 识 别 可 以 大 大 简化 。 只 有 受 虐 狂 才 会 忘记 图 像 的 二 维 结构 ， 只 提供 位 置 随机 分 布 的 
像素 值 的 一 维 数 组 作为 输入 (如 果 不 相 信 , 对 此 页 的 像素 做 一 个 随机 排列 , 然后 试 着 读 读 )。 
在 模式 识别 的 传统 模型 中 , 手动 设计 的 特征 从 输入 中 提取 相关 信息 ， 并 消除 不 相干 的 变 
Ho TÆ, 像 MLP 那样 可 训练 的 分 类 器 可 以 将 生成 的 特征 向 量 分 类 。 一 个 潜在 的 更 有 趣 的 
方案 是 去 掉 特 征 提取 器 , 将 原始 输入 给 网 络 , 再 用 反 向 传播 将 前 几 层 变 成 相应 的 特征 提取 器 。 
这 种 亚 力 的 方法 由 于 输入 维 数 非常 大 而 面临 困难 〈 导 致 权重 很 大 , 并 可 能 过 度 训练 )， 同 时 也 
缺少 有 关 输 入 的 平移 、 旋 转 或 局 部 扭曲 的 任何 内 置 不 变性 。 对 于 青蛙 来 说 ， 一 只 苍蝇 仍然 是 
一 只 苍蝇 ， 即 使 经 过 旋转 和 平移 。 
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10-5 “大 闫 蜂 ,常见 的 蟾 内 ,， 曾 用 于 蟾 肾 形体 视觉 研究 。 蛙 类 视网膜 中 的 特征 探测 器 是 便 连 线 
的 , 并 且 能 专门 检测 到 可 以 捕捉 的 距离 内 的 苍蝇 
































原则 上 讲 , 一 个 足够 大 的 全 连接 网 络 可 以 学 习 产 生 输 出 ,这 些 输出 相对 于 这 样 的 变化 是 
不 变 的 。 然 而， 学习 这 样 的 任务 可 能 会 导致 多 个 单元 中 ,权重 相似 的 图 案 出 现在 输入 的 各 个 
位 置 。 在 卷 积 神经 网 络 (convolutional neural network, CNN) 中 [6 一 些 平移 不 变性 由 自动 
强制 复制 跨 空 间 的 权重 配置 获得 。 图 像 平面 中 具有 本 地 连通 性 的 核 在 图 像 的 不 同位 置 重 复出 
M (权重 被 共享 )。 由 于 局 部 相关 性 的 原因 ， 识别 空间 或 时 间 对 象 之 前 ,就 能 够 提取 它们 的 局 
部 特征 并 使 其 相 结 合 , 这 也 是 一 个 比较 广为人知 的 优势 。 卷 积 网 络 将 隐藏 单位 的 感受 时 限制 
在 局 部 ， 以 此 迫使 其 提取 局 部 特征 。 

卷 积 就 是 对 于 函数 的 不 同 空 间 位 置 进 行 相同 的 局 部 过 滤 的 数学 算 子 。 信 号 处 理 就 是 一 个 
典型 的 利用 局 部 核 来 提取 局 部 特征 的 例子 , 卷 积 是 一 种 非常 重要 的 算 子 , 图 10-6 展示 了 两 个 
具有 代表 性 的 例子 。 左 图 是 用 高 斯 核 卷 积 过 滤 噪 声 信号 ， 其 输出 是 原始 信号 的 平滑 形式 。 这 
些 步 又 分 别 是 模糊 化 (计算 机 视觉 )、 低 通 滤波 或 去 骂 (信和 号 处 理 )、 平 滑 化 。 在 数学 上 , 给 定 
一 个 信号 函数 s(t) 和 一 个 过 滤器 f(t), 卷 积 算 子 可 以 写成 : 


















































































































































+00 
sx f(t) = f s(x) f(t — x)dz (10.1) 


换 名 话说 , 过 滤 核 f 使 用 加 权 积 分 “ 扫 过 ”整个 信号 函数 ,如 果 高 斯 核 拥 有 单位 面积 , BARE 
结果 就 是 原 信 号 的 加 权 平 均 。 图 10-6 的 右 图 是 一 个 更 有 趣 的 例子 , 它 使 用 两 个 不 同 振幅 的 高 
斯 核 的 差分 作为 滤波 器 ,通过 将 原始 信号 的 两 种 使 用 不 同 光 滑 窗口 的 模糊 化 结果 相 减 得 到 。 
最 终 的 核 被 称 作 高 斯 差分 (DoG) ,能 高 亮 那些 隐藏 的 、 突 变 的 信号 中 的 点 。 

对 于 神经 网 络 , 卷 积 公式 (10.1) 可 以 很 容易 地 拓展 成 二 维 离散 形式 。 为 了 实现 这 个 目标 ， 
S zz 为 一 个 mx n 图 像 中 的 像素 , 过 滤 核 表示 成 一 个 (2r 十 1) x (27 +1) 的 元 素 为 wiz HE 
阵 , 通常 它 的 半径 x 是 非常 小 的 。 卷 积 产 生 一 个 新 的 m x n 图 像 , 它 的 每 个 像素 wj 是 





















































10.2 局 部 感受 野 和 卷 积 网 络 91 
2r 2r 

Yij = 5 5 WhkLitrt+1—h,j+rt1—k (10.2) 
h=0 k=0 





上 式 假设 索引 从 0 开始 。 为 了 得 到 和 原 图 像 大 小 相等 的 结果 , 我 们 必须 假设 原 图 像 在 任何 方 

















向 都 有 一 个 大 小 为 r 的 边界 ; 否则 , 最 终生 成 的 图 像 在 任何 方向 都 比 原 图 像 要 少 r 个 像素 。 
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图 10-6” 卷 积 的 两 个 例子 :〈 左 ) 高 斯 平滑 ;( 右 ) 高 斯 差分 边界 增强 








观察 式 (10.1) 中 的 “t 一 z”: 为 了 保留 许多 有 用 的 数学 性 质 , 卷 积 运算 符 要 求 P 
反方 向 扫 过 ， 如 式 (10.2) 中 所 再 现 的 。 大 多 数 软 件 包 可 以 用 这 种 方式 配置 ， 


























两 个 函数 从 
也 可 以 让 核 和 输 


入 从 相同 的 方向 扫 过 。 在 后 一 种 情况 下 ,网 络 以 互相 关 模 式 进行 操作 ， 其 结果 是 一 个 适当 的 
内 积 。 两 种 模式 之 间 的 唯一 实际 差别 是 权重 被 存储 的 顺序 ， 在 两 个 表示 之 间 的 变换 仅 需 要 核 





























的 180° 旋转 。 换言之 , 卷 积 层 求 线 性 过 滤器 和 相关 感受 野 的 内 积 。 








卷 积 网 络 结合 3 种 成 分 以 确保 一 定 程度 上 的 移 位 和 变形 后 的 不 变性 : 局 部 感受 野 、 共 








权重 (或 权重 复制 ), 以 及 有 时 会 需要 的 空间 或 时 间 子 抽样 ( 池 化 )。 























享 


如 图 10-7 所 示 , 通过 在 整个 图 像 中 应 用 相同 的 局 部 感受 野 , 神经 元 可 以 提取 基本 视觉 特 


























征 , 如 有 向 边 、 端点、 边 角 或 语音 谱 图 中 的 类 似 模 式 。 然后 这 些 特征 由 较 高 层 的 神经 元 结合 起 
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带 有 共享 权重 的 神经 元 的 输出 ,在 图 像 中 不 同 的 点 上 重复 ， 被 称 为 特征 映射 。 特 征 映 射 


































































































则 学 会 了 用 高 斯 差分 来 加 强 边 界 。 

































































通常 情况 下 ,每 个 卷 积 层 后 都 附加 池 化 层 〈 见 图 10-7 底部 )， 池 化 层 执行 
抽样 并 降低 特征 映射 的 分 辩 率 ,因此 降低 了 输出 对 于 变化 和 扭曲 的 敏感 度 。 其 基本 天 





是 通过 在 输入 的 每 个 局 部 的 卷 积 后 接 一 个 非 线性 激活 函数 而 得 到 的 。 在 图 10-7 的 上 半 部 分 ， 
输入 的 图 像 被 两 个 过 滤器 “ 扫 过 ”生成 两 个 特征 映射 , 这 两 个 特征 映射 的 神经 元 或 多 或 少 由 


局 部 感受 野 中 相应 特征 的 存在 而 激活 。 在 该 示例 中 ,一 个 过 滤器 专门 用 来 辨识 斜 线 ， 男 一 个 











化 层 将 每 个 特征 层 分 为 非 重 辣 的 矩形 , 并 应 用 一 个 简单 的 “总 结 ” 操作 到 每 个 矩形 像素 上 。 





见 操作 如 下 : 


[局 部 平均 和 子 
式 为 池 
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矩形 中 所 有 像素 的 最 大 值 (max-pooling); 
矩形 中 像素 值 的 平均 值 (average-pooling); 
o 所 有 像素 值 的 平方 和 的 平方 根 ( 即 该 矩形 的 弗 罗 贝 尼 乌 斯 范 数 )。 









































图 10-7 基本 卷 积 网 络 : 输入 (图 像 像素 ) 被 针对 一 个 输入 权重 的 小 型 集合 的 卷 积 运算 扫 过 , 该 
卷 积 运算 充当 局 部 特征 提取 器 。 将 所 得 的 特征 映射 通过 一 个 池 化 操作 进行 子 抽样 , 而 较 
小 的 神经 元 集合 通过 一 个 传统 的 完全 连接 输出 层 传递 


更 深层 次 的 体系 结构 可 以 实现 卷 积 层 和 池 化 层 的 级 联 , 可 通过 其 他 方式 提高 输出 的 健壮 
性 来 达到 , 例如 10.1.2 节 中 讨论 的 随机 屏蔽 技术 。 只 要 神经 元 数目 足够 小 , 完全 连接 的 前 馈 
层 就 完成 了 网 络 。 

卷 积 神经 网 络 仍然 是 一 个 研究 热点 ， 并 且 是 处 理 复杂 图 像 和 语音 任务 的 先进 技术 ， 其 范 
围 过 于 广泛 , 因此 本 书 不 可 能 面面俱到 。 分 层 和 结构 化 的 体系 结构 的 一 个 示例 见于 图 10-8, 4 
于 参考 文献 [53] 最 近 提 出 的 随机 创建 神经 元 前 几 层 的 权重 。 参考 文献 [78] 的 作者 提出 了 一 种 
“分 形 ” 的 柳 套 网 络 的 体系 结构 , 建立 带 有 更 复杂 的 结构 的 微 神经 网 络 , 抽象 出 感受 野 内 的 数 
据 (超越 传统 CNN 中 过 滤 系 数 和 图 像 像素 之 间 的 线性 标量 积 )， 然 后 在 整个 图 像 上 复制 该 微 
神经 网 络 (micro neural network, MLP). 
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输入 层 BA 





权重 a, 
隐藏 层 
ELM 特 征 映射 ， ELM 学 习 
带 随 机 卷 积 节点 




















图 10-8 一 个 带 有 局 部 感受 野 的 结构 化 的 体系 结构 ( 卷 积 ) 和 池 化 层 (改编 自 参 考 文献 [53] ) 














E M 


通过 使 用 适当 的 学 习 横 式 ， 多 层 深度 神经 网 络 会 变 得 更 有 效率 〈 且 优 于 文 持 向 量 机 )， 
包括 无 监督 的 筹备 阶段 以 及 之 后 的 最 终 调整 阶段 ， 在 最 终 阶 段 需要 利用 稀缺 的 已 标记 实 
例 。 

在 改善 泛 化 能 力 的 方法 中 , 在 训练 中 使 用 可 控制 的 噪声 的 方法 是 有 效 的 《噪声 自动 编 
码 器 和 随机 屏蔽 )。 如 果 你 觉得 大 脑 里 有 噪声 和 混乱 ,请 放松 ,它们 也 许 是 有 好 处 的 。 

卷 积 神经 网 络 是 从 生物 学 得 到 灵感 ， 并 具有 工程 上 的 竞争 力 的 想法 的 一 个 很 好 的 例 
子 , 而 且 它 提倡 构建 嵌入 专业 领域 知识 的 预 布置 的 体系 结构 。 

神经 网 络 就 像 一 个 冰川 湖 ,。 你 潜入 水 中 , 但 你 不 知道 下 面 会 有 多 深 。 
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看 上 去 是 困难 ， 事 实 上 却 是 机 会 。 
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本 书 中 各 章节 的 次 序 在 某 种 程度 上 是 按照 机 器 学 习 的 历史 发 展 排列 的 。 ”在 1980 年 之 

















前 , 大 部 分 的 学 习 方法 集中 于 基于 规则 符号 的 专家 系统 , 或 精 粒 度 亚 符号 的 线性 判别 技术 , 这 








些 技术 都 有 着 明确 的 理论 属性 。 到 
了 有 效 的 学 习 方法 ,但 却 缺少 坚实 











了 20 世纪 80 TEAR, 决策 树 和 神经 网 络 为 非 线 性 模型 提供 

















的 理论 基础 ， 而 基于 梯度 下 降 的 最 优化 技术 也 略 显 朴素 。 


到 了 20 世纪 90 年 代 , 得 益 于 Vapnik 和 Chervonenkis 的 开创 性 工作 ,研究 者 为 非 线性 
函数 建立 了 许多 基于 统计 学 习 理 论 的 有 效 学 习 算 法 。 统 计 学 习 理论 (SLT) 解答 了 从 数据 中 学 
习 的 根本 问题 : 什么 情况 下 一 个 模型 可 以 从 样本 中 学 习 ? 一 个 模型 在 一 组 样本 上 测 得 的 性 能 
是 如 何 约束 其 泛 化 的 性 能 的 ? 

这 些 理论 结果 是 持久 不 变 的 , 尽管 这 些 定理 的 有 效 性 在 大 部 分 的 现实 问题 中 几乎 不 可 能 
得 到 验证 。 另 一 方面 , 这 些 研究 人 员 计 划 复 兴 线 性 判别 方法 , 他 们 为 了 加 强 模型 的 泛 化 能 力 ， 


往 线 性 判别 方法 








PF 加 入 额外 的 优化 















































目标 ,并 把 这 种 方法 称 作 支持 向 量 机 (SVM)。 




















SVM 听 起 来 很 专业 , 但 其 基本 原理 很 容易 掌握 。 考 虑 图 11-1( 左 图 ) 中 的 两 类 点 (分别 
是 灰色 和 白色 ), 以 及 两 条 直线 A 和 B, 它们 都 可 以 线性 划分 这 些 点 , 并 分 别 是 划分 带 标 签 训 

















O Vapnik 教授 的 照片 , KA Yann LeCun 的 网 站 “Vladimir Vapnik 与 视频 游戏 亚 文化 的 相遇 ”,， http://yann. 


lecun.com/ex/fun/index.html#allyourbayes。 
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练 数据 这 一 常见 机 器 学 习 方 法 的 两 种 不 同 结果 。 当 我 们 泛 化 划分 结果 时 ， 就 能 发 现 这 两 种 结 
果 的 不 同 之 处 。 使 用 这 个 已 训练 好 的 系统 时 ， 新 的 样本 来 自 与 训练 样本 相同 的 概率 分 布 ， 即 
两 类 点 在 图 中 的 分 布 与 训练 样本 类 似 , 但 是 对 于 直线 B, 样本 点 落 入 分 类 器 错误 一 侧 的 概率 
会 远大 于 直线 4。 直 线 B 离 一 些 训练 样本 点 很 近 ， 因 此 几乎 不 能 分 离 这 些 点 。 而 直线 4 高 
两 类 样本 点 的 概率 距离 都 是 最 远 的 , 因此 在 它 的 附近 有 概率 上 最 “安全 的 区 域 ”， 又 称 作 间隔 
(margin). SVM 就 是 具有 最 大 可 能 安全 间隔 的 线性 分 类 器 , 其 中 的 支持 向 量 就 是 那些 处 于 安 
全 间隔 两 侧 边 缘 的 点 ( 见 图 11-1 AR). RK, 我 们 过 到 过 的 最 小 二 乘 线 性 模型 ( 见 4.3 节 ) 
和 SVM 很 相似 。 最 小 二 乘法 最 小 化 均 方 误差 , 而 SVM 最 小 化 最 大 距离 , 不 过 二 者 的 目标 是 
一 致 的 , 都 是 为 了 得 到 类 间 健 壮 且 安全 的 边界 。 










































































支持 向 量 








11-1 ”解释 支持 向 量 机 的 基础 线 4 的 间隔 比 线 B 的 要 大 。 大 的 间隔 会 增加 新 实例 落 在 分 类 
器 正确 一 侧 的 概率 。 支 持 向 量 是 触及 最 大 可 能 间隔 的 那些 点 























为 了 得 到 最 大 间隔 线性 分 类 器 ,通常 使 用 标准 二 次 规划 ,， 它 可 以 在 一 定 规模 下 解决 此 类 
优化 问题 。 二 次 规划 问题 就 是 目标 函数 为 二 次 函数 、 约 束 条 件 为 线性 的 最 优化 问题 。 在 多 层 感 
知 器 中 存在 的 局 部 极 小 值 问题 一 一 由 于 局 部 极 小 值 离 全 局 最 小 值 很 远 一 一 在 二 次 规划 中 不 
会 出 现 ， 因 此 可 以 放心 使 用 SVM。 但 众所周知 ， 没 有 不 带刺 的 玫瑰， 如 果 训 练 样本 不 是 线性 
可 分 的 , 那么 SVM 就 会 遇 到 很 多 问题 。 这 种 情况 下 , 需要 先 对 原始 样本 点 做 非 线 性 的 变换 y， 
从 而 将 其 变 成 《近似 ) 线性 可 分 的 。 可 以 将 8 看 作 一 个 合适 的 特征 生成 函数 ， 它 使 得 变换 之 
后 的 两 类 样本 点 $(z) 是 线性 可 分 的 。 对 于 特定 的 问题 , 需 人 工 生成 特定 的 非 线 性 变换 , 目前 
还 没有 通用 的 变换 。 

难道 为 了 找到 合适 的 %, 还 要 重新 做 特征 提取 和 特征 工程 ? 某 种 意义 上 是 这 样 的 , 在 使 用 
9 变换 输入 样本 后 , SVM 的 特征 就 是 要 识别 的 样本 和 训练 样本 "之 间 所 有 的 相似 性 值 。SVM 
关键 的 一 步 就 是 , 通过 一 些 交 叉 验 证 的 方式 ， 人 工 确定 最 利于 学 习 和 泛 化 的 相似 度 度量 函数 ， 
其 中 就 涉及 核 函数 的 选择 。 

























































































@ 实际 上 只 有 支持 向 量 才 提供 非 零 的 贡献 。 
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SVM 可 以 看 作 解决 了 两 个 问题 : 一 方面 , 它 找到 了 一 个 衡量 输入 向 量 之 间 相 关 性 的 合适 
Fi, BE BRK (sy) 男 一 方面 ,， 它 构建 了 一 个 线性 结构 ,该 线性 结构 结合 了 训练 样本 的 
输出 和 新 的 测试 样本 ， 训 练 样本 的 输出 用 相似 度 来 衡量 。 正 如 预期 的 那样 ， 越 相似 的 输入 样 
本 对 输出 的 贡献 越 大 ， 就 像 第 2 章 中 更 原始 的 最 近邻 分 类 器 一 样 ， 可 以 用 类 似 下 面 的 式 子 来 
描述 : 
























































>》 ui K (a, ai) 


i=1 
C 是 训练 样本 的 数量 ,yw 是 训练 样本 zi 的 输出 ,x 是 待 分 类 的 新 测试 样本 。) 这 个 式 子 在 下 
面 的 理论 描述 中 会 再 次 出 现 。 核 在 计算 被 函数 ce) 映射 后 数据 点 的 点 积 ( 纯 量 积 ) 时 ,实际 
上 不 用 计算 这 个 映射 函数 ,这 种 方法 被 称 作 “ 核 方法 ”( 见 图 1-2): 



























































K(x, xi) = p(x) - p(x) 


一 个 包含 一 系列 点 对 内 核 值 的 对 称 半 正 定格 拉 姆 矩阵 融合 了 数据 和 核 的 信息 。” 为 获得 
的 数据 而 估计 一 个 合适 的 具有 最 大 泛 化 结果 的 核 矩 阵 ， 这 是 一 个 正在 开展 的 研究 课题 。 
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的 不 相似 值 


Tj 


图 11-2 ”支持 向 量 机 学 习 的 初始 信息 是 每 对 输入 点 之 间 的 相似 性 值 天 (zz ary), 其 中 K 被 称 为 
BB. 这些 值 , 在 茶 些 条 件 下 ,可 以 理解 为 初始 输入 通过 一 个 非 线 性 函数 %(z) 的 映 
射 后 得 到 的 标量 积 , 但 并 不 需要 计算 实际 的 映射 , 仪 需要 计算 核 的 值 (“ 核 方法 ”) 

























































































现在 , SVM 的 整体 框架 已 经 明确 ,下面 就 来 深入 数学 的 细节 ,其 中 有 些 细节 非常 复杂 难 
ffo SIS ME, 使 用 SVM 的 时 候 , 并 不 需要 知道 这 些 定理 的 证 明 , 虽然 了 解 主要 的 数学 结果 
会 帮助 你 更 好 地 选择 参数 和 核 等 。 




































































11.1 经 验 风险 最 小 化 
之 前 提 到 过 , 最 小 化 一 系列 样本 的 误差 并 不 是 一 个 合理 的 统计 学 习 算 法 的 唯一 目标 , 也 
要 考虑 模型 的 结构 。 统 计 学 习 理 论 为 基于 观测 的 推导 未 知 函 数 依赖 关系 提供 了 数学 工具 。 
统计 学 中 的 范式 转换 始 于 20 世纪 60 年 代 : 在 此 之 前 , 基于 费 希 尔 在 19 世纪 二 三 十 年 代 
的 研究 , 研究 者 为 了 从 观测 样本 中 推导 出 函数 依赖 关系 , 必须 了 解 所 需 依赖 关系 的 详细 形式 ， 


Q@ 任何 相似 矩阵 都 可 以 被 用 作 核 , 只 需 满足 Mercer 定理 的 条 件 。 
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并 且 从 实验 数据 中 只 能 得 到 有 限 数量 参数 的 值 。 而 新 的 范式 不 需要 详细 了 解 依赖 关系 ， 并 证 
明了 一 些 未 知 依赖 关系 的 函数 集合 的 某 些 通用 属性 足以 估计 数据 的 依赖 关系 。 非 参数 技术 就 
是 这 些 灵 活 模 型 的 一 种 , 研究 者 即使 不 了 解 输入 -输出 函数 的 详细 形式 也 能 使 用 该 方法 , 例如 
之 前 的 多 层 感 知 器 (MLP) 模型 。 

简单 总 结 一 下 统计 学 习 理 论 主要 方法 的 要 点 , 对 于 促进 使 用 支持 向 量 机 (SVMD) 作为 一 
个 学 习 机 制 有 巨大 作用 。 & P(z,y) 为 抽样 的 未 知 概率 分 布 , 任务 是 学 习 映 射 mm 一 y;， 即 得 
到 函数 f(a,w) 的 参数 值 。 函 数 f(a, w) 称 作 假设 , 集合 {f(zx,w) : w € W) 称 作 假设 空间 ， 
WHE H, 令 W 为 抽象 参数 的 集合 。 一 个 基于 标记 样本 选择 的 参数 w e W 就 得 到 了 一 个 “ 训 
练 机 ”。 
一 个 用 于 分 类 的 训练 机 的 期 望 测试 误差 或 期 望 风 险 是 : 


/ ly — F(«,w)||d P(e, y) (11.1) 




































































































































































Remp( =f 22 lly ~~ Xi, (11.2) 














一 个 基于 经 验 风险 最 小 化 ERM) 原则 的 经 典 学 习 方 法 是 : 可 以 通过 最 小 化 经 验 风险 [ 式 
(11.2)] 来 逼近 函数 f(x, w), BE RIMER [ 式 (11.1)]， 从 而 逼近 函数 f(x, w*). 

经 验 风 险 最 小 化 的 基本 依据 是 : 如 果 Remp MPEP R CHK BOE FERRIED, ABA 
Remp 的 最 小 值 可 能 收敛 到 R 的 最 小 值 。 如 果 这 个 依据 不 成 立 ， 那 么 经 验 风 险 最 小 化 原则 就 
被 称 作 不 一 致 。 

Vapnik 和 Chervonenkis 指出 ， 上 述 一 致 性 成 立 , 当日 仅 当 Remp 依 概率 收敛 到 R 是 一 臻 
的 ， 即 随 着 训练 集 的 增加 ，Romp(w) UE Rw) 的 概率 对 于 整个 参数 集合 W 一 致 地 趋 近 1。 
经 验 风险 最 小 化 的 充 要 条 件 是 假设 空间 H 的 Vapnik-Chervonenkis 维 (VC-dimension, VC 
维 ) 是 有 限 的 。 

一 个 假设 空间 的 VC 维 , 简单 来 说 , 就 是 能 被 函数 集合 f(a, w) 分 割 成 所 有 可 能 的 两 种 
类 别 的 最 大 样本 数 。VC HE h 描述 了 假设 空间 的 复杂 度 和 表达 能 力 , 通常 与 模型 f(x,w) 的 
目 由 参数 的 数量 成 正比 。 

Vapnik 和 Chervonenkis 规定 了 经 验 风险 和 期 望 风 险 之 间 偏 离 的 界限 ， 可 以 依 概率 1 一 p 


写成 下 式 : 
n(n +1] -m 
R(w) < Remp(w) + Yw € W 


通过 分 析 这 个 界限 并 忽视 对 数 因子 , 为 了 得 到 较 小 的 期 望 风险 , 我 们 要 使 经 验 风险 和 假 
设 空间 的 VC 维 与 训练 样本 数 的 比例 hyt 变 得 很 小 。 换 句 话说 , 要 想 在 训练 之 后 得 到 有 效 的 
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泛 化 能 力 ， 就 要 使 假设 空间 足够 大 ， 使 得 训练 机 经 验 风险 较 小 ， 即 能 够 正确 训练 样本 ， 但 假 
设 空间 又 不 能 太 大 , 和 否则 会 导致 训练 机 仅仅 简单 地 记忆 训练 样本 , 而 没有 提取 出 问题 的 结构 。 
所 以 , 为 了 得 到 更 好 的 模型 适应 性 ， 也 需要 更 多 的 样本 来 实现 类 似 的 泛 化 水 平 。 
尤其 当 样本 数量 有 限制 时 ， 为 了 得 到 好 的 泛 化 效果 , 选择 适当 的 VC 维 至 关 重 要 。 
为 了 选择 合适 的 h 值 的 ,， Vapnik 在 上 述 界限 的 基础 上 提出 了 结构 风险 最 小 化 structural 
risk minimization, SRM) 的 方法 。 对 于 SRM 的 原理 , 学 习 模 型 从 一 个 髓 套 的 假设 空间 开始 : 








































































































H, CHeC-:-CHynC::: (11.3) 




















并 且 集 合 Hn 的 VC HE h(n) 满足 h(n) < h(n +1) 这 样 的 性 质 。 当 下 标 数值 ”增加 时 ， 最 小 
经 验 风 险 降低 , 但 是 关于 置信 区 间 的 值 会 增 大 。SRM 原则 就 是 选择 对 真实 风险 具有 最 小 界限 
的 假设 子 集 A。 和 暂且 忽略 对 数 因子 , 必须 解决 下 述 问 题 : 







































































' h(n) 
min [ont + 2) (11.4) 





下 述 的 SVM 算法 就 是 基于 SRM 原则 , 通过 同时 最 小 化 VC 维 的 界限 和 训练 错误 的 样 
本 数 来 达到 。 

SVM 的 数学 推导 在 线性 分 类 问题 中 第 一 次 被 总 结 , 之 后 也 为 建立 其 他 模型 提供 一 些 直觉 
上 的 基础 。 
11.1.1 ”线性 可 分 问题 


假设 这 些 已 标记 的 实例 是 线性 可 分 的 , 这 意味 着 存在 一 对 (w, b) 使 得 : 





























w-ertb>1 Va € 类 1 





wetb<—-l Vac 类， 


假设 空间 包含 函数 : 





fw» = sign(w -x + b) 
于 参数 (w,b) 乘 以 一 个 常数 不 改变 判定 表面 ,下列 约束 可 用 来 确定 单一 的 一 对 : 






































min jw-a; +b) =1 
Lyne 


i= ljas 


LBL i) AS AAD AY DIG Bl Fat w 的 范 数 引入 。Vapnik 已 经 证 明 , 若 所 有 实例 位 于 m 
维 中 半径 为 R 的 球面 里 且 |lwl| < 4, 则 函数 集 fwb = sign(w a +b) 的 VC HERE h WE 












































h <min{[R?A?],n}4+1 





限制 w 的 范 数 提供 假设 空间 的 约束 的 几何 解释 如 下 ( 见 图 11-3): 如 果 ul < A, 那么 从 
超 平面 (w,b) 到 最 近 的 数据 点 的 距离 大 于 1/4， 因 为 只 考虑 与 在 每 个 数据 点 周围 半径 为 1/4 


























11.1 经 验 风 险 最 小 化 ”99 














的 球 不 相交 的 超 平面 。 在 线性 可 分 的 情况 下 ,最 小 化 lew] 来 确定 最 大 边界 (两 个 训练 类 的 凸 
包 之 间 的 沿 着 垂直 于 超 平面 测量 的 距离 ) 的 分 离 超 平面 。 


op A 


o 第 一 分 类 中 的 点 
A ”第 二 分 类 中 的 点 
(e) ee 


oe (e) (C) sso 


图 11-3 ”假设 空间 约束 。 该 分 离 超 平面 必须 最 大 化 边界 。 直 观 来 说 ,没有 太 靠 近 边 界 的 点 ， 使 得 
输入 数据 中 的 一 些 噪声 和 将 来 由 相同 概率 分 布 产生 的 数据 不 会 破坏 分 类 


esl 
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这 一 问题 可 以 形式 化 为 : 


最 小 化 wp 





使 服从 Www zi 十 人 1 7111 














这 个 问题 可 以 通过 使 用 标准 二 次 规划 QP) 优化 工具 来 解决 。 
引入 一 个 向 量 4 = (和 1,… A) 作为 对 应 于 约束 的 非 负 拉 格 朗 日 乘 数 ,， 那么 对 偶 二 次 规 
划 如 下 : 














最 大 化 4 4.1- 5A.D.A 


A-y=0 (11.5) 
使 服从 | 


之 




















其 中 y 是 实例 分 类 向 量 ， 刀 是 对 称 Cx l AERE, 其 元 素 Dij = Yiyjti Ejo 

对 应 于 Aj > 0 的 向 量 w 为 支持 向 量 。 换 句 话说 ,支持 向 量 是 式 (11.5) 中 的 约束 为 活跃 
的 那些 向 量 。 如 果 w* 是 w 的 最 优 值 ， 那么 对 于 任何 支持 向 量 e b 的 最 优 解 的 值 可 以 计算 
b* = yi — wa, 并 且 分 类 函数 可 以 写成 


£ 
f(x) = sign (>: YATE: Li + r) 


i=1 
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需要 注意 的 是 求 和 指数 也 可 以 限制 在 支持 向 量 上 , 因为 所 有 其 他 的 向 量 的 AP 系数 为 零 。 最 终 



































分 类 是 由 加 权 的 子 分 类 y; 的 线性 组 合 决定 的 , 这 些 权重 由 输入 模式 与 实例 模式 的 标量 积 ( 当 





























前 模式 和 实例 x; 之 间 的 “相似 性 ”的 度量 ) 和 参数 入 确定 。 
11.1.2 ”不 可 分 问题 


如 果 假设 集 不 变 , 但 实例 不 是 线性 可 分 的 , 那么 可 以 给 引入 正比 于 约束 寺 





向 量 三 里 )， 然 后 对 以 下 问题 求解 : 





g k 
最 大 化 wos pte? + c( e) 
i=1 





yi(w +2; +b) >1-& 1 一 1 
使 服从 & 20 i=1,...,6 
lwll? < cr 























第 一 项 与 VC 维度 有 关 , 而 第 二 项 与 经 验 风 险 相关 。( 参 见 前 文 的 SRM 原理 。 
设 为 1。 


11.1.3 ” 非 线 性 假设 

















Be &; 《收集 在 





(11.6) 


其 中 参数 C 和 K 确定 违反 约束 造成 的 成 本 , 而 c 限制 系数 向 量 的 范 数 。 事实 上 , 最 小 化 的 


) 在 本 例 中 , k 


上 述 技术 可 以 扩展 到 非 线 性 分 类 器 , 这 需要 将 输入 数据 x 映射 成 高 维特 征 向 量 ple) 并 
在 转化 的 空间 再 使 用 线性 分 类 , 转化 后 的 空间 称 为 特征 空间 。 现 在 SVM 分 类 器 变 为 : 























£ 
f(x) = sign (> yid plx): plx) + v) 


i=l 
引入 核 函 数 K(x, y) = p(x): ply) 则 SVM TREN: 


£ 
fæ) sen (Swart) + | 


i=l 
相对 应 的 二 次 优化 问题 变 为 ; 
最 大 化 。 4.1_14.D.4 


A-y=0 
使 服从 人 
0<A<C1 








其 中 D 是 一 个 对 称 的 《 x 和 矩阵, 其 元 素 Diz = yiyjK(zi, 2j)。 
SVM 方法 的 一 个 扩展 是 让 两 个 类 的 失误 有 不 同 的 权重 , 例如 当 两 个 类 的 档 

















(11.7) 


LE 本 容量 不 一 样 








的 时 候 , 或 者 当 发 生菜 个 类 的 失误 比 发 生男 一 个 类 的 失误 要 严重 的 时 候 。 这 可 





以 通过 给 两 个 





RN KABA ARE TY (C+ 和 C-) 来 完成 。 现在 需要 最 











1 £ £ 
Hete E a] +c- 
i:yi=+1 iYi 


11.1 经 验 风 险 最 小 化 ”101 


小 化 的 函数 变 为 : 


£e) 


如 果 小 心 选 择 特征 函数 p(x)， 人 们 无 须 实际 计算 所 有 特征 就 可 以 计算 标量 积 , 因此 大 大 








降低 了 计算 复杂 度 。 

















避免 这 种 显 式 映 射 的 方法 也 被 称 为 核 方法 。 这 种 方法 使 用 只 需 向 量 在 原 输入 空间 的 点 积 








的 学 习 算法 , 并 通过 核 函数 的 手段 ,选择 使 得 这 些 高 维 点 积 


















































可 在 原 空 间 内 进行 计算 的 映射 。 





例如 , 在 一 维 空间 中 的 一 个 合理 选择 可 以 是 带 有 适当 系数 on 的 变量 x 的 单项 式 : 











p(x) = (aol, a12, aon”, ,adz9d) 











这 样 p(x): ply) = (1 十 xy)4。 在 更 高 的 维度 里 , 可 以 看 出 ， 
么 我 们 总 是 可 以 确定 系数 a, 使 得 : 








K(x,y) =(1+@-y)" 





A a pe SEP R. SVM 通常 使 用 的 内 核 有 以 下 几 种 。 








1) 点 积 : K(z,y) = x-y; 这 种 情况 下 没有 映射 ， 并 且 











2) 多 项 式 函数 ， K(x,y)= (x-y +1), 其 中 阶 d 是 给 定 的 。 


























如 果 特 征 是 阶 < d 的 单项 式 ， 那 
































仅 计 算 最 佳 的 分 离 超 平面。 

















4) S 型 (或 神经 ) 内 核 ; 带 有 参数 a M b AY K(a,y) = tanh(ax - utd). 
5) ANOVA 核 : 带 有 参数 M d 的 K(a,y) = (IM, ew Mew) %, 


2 


当 《 数值 增加 时 ， 该 二 次 优化 问题 需要 一 个 ex 0 HERE, 


( 
( 
(3) 径 向 基 函 数 (RBF)， 像 高 斯 函数 : 带 有 参数 y 的 K(x,y) =e WMe-yll? , 
( 
( 


因此 随 着 训练 集 大 小 的 增长 , 这 





种 方法 就 会 迅速 变 得 不 切实 际 。 参考 文 献 [83] 介绍 了 一 种 分 解 方 法 , 这 个 优化 问题 被 分 成 一 
个 活动 集合 和 一 个 非 活 动 集合 。 参考 文献 [69] 的 工作 介绍 了 有 效 的 方法 来 选择 工作 集 以 及 减 
少 问题 的 复杂 度 , 它 是 利用 这 一 事实 : 相对 于 训练 数据 点 总 数 , 支持 向 量 数 是 很 小 的 。 




















11.1.4 ”用 于 回归 的 支持 向 量 











支持 向 量 方法 也 可 以 用 于 回归 , 也 就 是 说 ,从 一 组 训练 数据 { (zi,yi;)} 来 估计 函数 f(z)。 























就 像 分 类 那样 ， 先 从 线性 函数 的 情况 开始 ， 然 后 考虑 预 处理 
特征 空间 , 使 得 到 的 模型 是 非 线 性 的 。 
为 了 使 术语 统一 , 线性 情况 可 以 概括 为 函数 f (ae) = w- 


























最 小 化 。 wl 
yi — (w - £i + b) 


使 服从 | 
(w -xi +b) — yi 





E 输 入 数据 xz;, 将 其 映射 到 合适 的 


w+ bo 要 解决 的 凸 优化 问题 变 为 : 


<e 


gE 
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假定 存在 一 个 函数 ， 以 精度 © 逼近 所 有 数据 对 。 
如 果 问 题 是 不 可 解 的 , 可 以 引入 具有 松弛 变量 &, (保存 在 向 量 号 里 ) 的 软 边界 , 来 应 
对 不 可 行 的 约束 , 得 到 下 列 优 化 问题 : 


v4 g 
最 小 化 wos slwl? +C (> p> e) 


i=l i=1 



































yi -w-a,—b<e-G i=l,---,f 

w-a2j+b-y<e-& i=1,..., (11.8) 
使 服从 & >0 EE 

& 20 (1,032 

|| wll? < cr 


























类 似 于 分 类 的 情况 ，C 决定 函数 的 平 直 度 和 偏差 大 于 e 的 容许 度 之 间 的 权衡 。 关 于 支持 向 量 
用 于 回归 的 详细 信息 ,可 以 在 参考 文献 [100] 中 找到 。 

















EO M 


统计 学 习 理论 (SLT) 声明 了 能 成 功 从 实例 中 进行 学 习 的 条 件 ; 也 就 是 说 ， 对 于 相同 
底层 概率 分 布 产生 的 新 实例 , 训练 数据 的 积极 成 果 能 转换 成 有 效 的 泛 化 。 分 布 的 稳定 性 是 
至 关 重 要 的 : 好 的 老师 绝 不 会 用 一 些 例子 来 教育 学 生 , 却 又 用 完全 不 同 的 男 一 些 例子 来 考 
试 。 换 名 话说 , 实例 必须 代表 问题 。 可 学 习性 的 条 件 意味 着 假设 空间 (我 们 用 于 学 习 的 “可 
调 参数 的 灵活 机 器 ”) 必须 足够 强大 , 使 其 在 训练 实例 上 有 不 错 的 表现 (经验 风 险 小 ), 但 
又 不 能 过 于 强大 , 以 至 于 只 记 住 了 实例 , 却 没有 提取 问题 的 深层 结构 。 这 一 灵活 性 是 由 VC 
维度 量化 的 。 

SLT 展示 了 从 数据 中 学 习 的 天 和 党 是 存在 的 , 但 是 对 于 大 多 数 实际 的 问题 , 它 并 不 显示 
进入 天 和 党 大 门 的 实际 步 又 , 通过 直觉 和 交叉 验证 选择 适当 的 核 和 参数 才 是 成 功 的 关键 。 

深度 学 习 和 MLP 的 最 新 成 果 带 来 了 新 的 希望 “特征 工程 ”和 内 核 选 择 步骤 可 以 完全 
自动 化 。 这 一 领域 的 研究 尚未 形成 定论 , 仍 有 新 技术 的 突破 空间 ， 以 及 创造 力 引 领 下 的 特 
ARIT, REKKAR. 
























































































































































第 12 章 ”最 小 二 乘法 和 健壮 内 核 机 器 


科学 或 许 就 是 系统 简化 的 艺术 。 
一 一 卡尔 波 普尔 


ES 
/ WO | 
(O(N j 














支持 向 量 机 最 初 是 基于 这 样 的 设想 : 将 数据 映射 到 高 维 空间 ， 并 在 该 空间 中 构造 一 个 最 
优 的 分 割 超 平面 , 即 最 大 化 “安全 ”间隔 。 就 像 11.1.1 节 一 样 , 为 了 使 数据 点 安全 地 正确 地 落 
在 超 平面 的 两 侧 ， 有 如 下 不 等 式 : 








yi(w-aj,+b)>1 1 
再 通过 添加 违反 约束 & 修正 为 : 


y(w-a, +b) >1-& 1 








最 大 化 间隔 就 是 最 小 化 wj。 对 偶 凸 二 次 规划 “QP) 可 以 得 到 最 优 值 ， 就 像 MLP 和 其 他 技 
术 一 样 , 不 会 收敛 到 一 个 局 部 极 小 值 。 

当 研 究 者 都 追随 着 SVM/ 凸 二 次 规划 的 热潮 时 ， 有 两 个 问题 却 未 引起 关注 。 第 一 个 问题 
是 如 何 选择 适当 的 核 。 具有 良好 泛 化 能 力 的 线性 可 分 器 需要 恰当 地 度量 训练 样本 及 测试 样本 











K(x, x) = p(x) - p(x) 
举 个 简单 的 例子 ,温和 的 老师 会 解决 一 个 问题 最 主要 的 部 分 ， 然 后 将 不 重要 的 部 分 〈 使 用 二 
次 规划 找 出 最 优 超 平面 ) 留 给 学 生 。 深度 学 习 (10.1 节 ) 就 采用 这 种 方式 , 它 直接 从 数据 中 自 
动 构建 了 许多 中 间 的 特征 ， 以 供 后 续 的 机 器 学 习 算 法 进一步 学 习 。 
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第 二 个 问题 是 计算 效率 。 二 次 规划 是 可 解 的 , 但 是 在 求解 许多 大 规模 问题 时 , CPU 所 花 
费 的 时 间 会 迅速 增长 。 采 用 二 次 规划 是 因为 存在 不 等 式 的 约束 ， 所 以 尝试 舍弃 不 等 式 约束 而 
得 到 更 简单 的 等 式 约束 是 值得 的 。 使 用 等 式 约束 并 对 误差 进行 平方 形式 的 罚 分 ,将 能 得 到 类 
似 之 前 良好 的 线性 等 式 ， 可 以 更 快 地 解决 问题 ， 也 便于 理解 。 本 章 将 介绍 最 小 二 乘 支持 向 量 
机 领域 的 最 新 发 展 。 我 们 将 会 看 到 ， 使 用 一 些 其 他 的 方法 ,将 使 得 二 次 罚 分 不 会 导致 参数 的 
稀疏 性 。 除 此 之 外 ， 当 样本 存在 离 群 值 时 ， 二 次 罚 分 会 变 得 很 脆弱 ， 因 为 离 群 值 巨大 的 偏差 
将 会 被 平方 。 离 群 值 可 能 是 测量 误差 导致 的 , 研究 者 通常 会 避免 一 些 损坏 模型 性 能 的 离 群 值 ， 
一 个 可 行 方法 就 是 采用 健壮 的 版 本 , 即 限制 偏离 误差 罚 分 的 大 小 , 以 防止 其 过 大 。 

草 首 图 中 的 弹 赞 可 看 作 数据 点 和 拟 合 模型 之 间 弹 簧 形 连 接 的 物理 解释 ,这 种 连接 都 具有 
二 次 势能 















































































































































































































































12.1 最 小 二 乘 支持 向 量 机 分 类 


继 参考 文献 [93] 在 支持 向 量 机 中 为 函数 估计 引入 岭 回归 后 ，Suykens 和 Vandewalle!!! 
提出 了 基于 核 方 法 的 最 小 二 乘 文 持 向 量 机 分 类 器 。 
SVM 分 类 器 的 最 小 二 乘 变 体 可 以 通过 改写 SVM 中 的 最 小 化 问题 得 到 : 































































































最 小 化 we Jo(w, e) = sew $ e? 
{1 
使 服从 yi [wT plz) +b] =1— es i=1,...,6 
可 以 通过 调整 超 参数 Y， 确 定 正 则 化 项 和 二 次 误差 之 和 的 适当 比例 。 上 述 的 最 小 二 乘 
SVM (LS-SVM) 分 类 器 隐 式 地 对 应 着 一 个 二 值 目 标 yi = £1 的 回归 模型 。 
使 用 y? =1, 我 们 有 : 
£ £ £ 
Vac» ( yie ci) = > [yi p(Ti) ) +d) -4 
i=1 i=1 i=1 














这 里 e; = yi — (wlx) +b), RRA TEN RAGHU HEA, re) — 
HE SVM 和 其 对 应 的 回归 模型 拥有 相同 的 最 终结 果 。 注意 误 损 函数 . 是 由 拟 合 误差 的 均 方 和 
(SSE) 和 一 个 对 过 大 参数 罚 分 的 正则 化 项 组 成 , 这 是 一 种 训练 多 层 感 知 机 的 标准 方法 ， 也 和 
4.7 节 的 岭 回归 有 关 。 

可 以 通过 构造 如 下 拉 格 天 日 函数 来 求解 LS-SVM 的 回归 上 












































iu 








nj 
(| 
oe 


2 
Lə(w,b,e, a) = Jo(w,e) 一 Zaf [wT p(xi) +b] + ei — vi} 
2 


= wlw ibd Saf [wT plxi) +b] + ei — vi} 


i=l 
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这 里 的 a= (ai ae)" ER 是 拉 格 表 日 乘 子 , 也 被 称 作 支 持 值 。 
通常 ,为 了 避免 直接 求解 二 次 规划 问题 ， 使 用 拉 格 衣 日 乘 子 法 ， 由 目标 函数 极 小 值 处 的 
梯度 等 于 0, 将 会 得 到 一 个 线性 方程 组 (二 次 形式 函数 的 导数 是 线性 的 ): 


名 an 四 = (2) (12.1) 


HP y = (yeyo), le = 二 (1,… ,1)T， L Æ Lx l 的 单位 矩阵 ，Q © RA 是 由 Quy = 
glxi) (a,j) = K(x, x3) EIZIE 
使 用 “ 核 方法 ” 不 必 明 确 求 出 映射 P， 只 需求 出 内 积 即 可 。 这 种 方法 十 分 有 用 ， 因 为 权 
重 向 量 w 可 以 是 无 限 维 , 在 一 些 情况 下 我 们 几乎 不 可 能 求 出 它 的 映射 。 
通过 求解 线性 方程 组 (12.1) 而 不 是 求解 二 次 规划 , 我 们 就 能 得 到 一 个 分 类 器 ,作为 函数 
预测 , LS-SVM 的 结果 为 






































e 
y(x) = So ark (a, Tk) +6 
k=1 


例如 , 径 向 基 核 (RBF) 由 宽度 参数 o 定义 : 
Keue 
这 种 情况 下 , LAE a, = yer 与 数据 点 的 误差 是 成 比例 的 , 而 在 标准 SVM 中 ,这 些 文 持 值 
大 部 分 为 0。 
一 个 学 习 双 螺旋 基准 问题 的 SVM 如 图 12-1 所 示 。 





入 全 全 全 全 人 人 AA i 
oO 
Dooo 200, 
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12-1 SVM 学习 双 螺 旋 的 分 类 问题 两 个 类 分 别 用 圆圈 和 三 角形 表示 。 这 幅 图 展示 了 SVM 
卓越 的 泛 化 性 能 
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12.2 ”健壮 加 权 最 小 二 乘 支 持 向 量 机 


参考 文献 [105] 中 讨论 了 LS-SVM 的 健壮 性 和 稀 玻 逼近 问题 。LS-SVM 得 到 的 线性 系统 
[ 式 (12.1)] 可 以 通过 直接 求解 或 类 似 于 共 纯 梯度 法 的 逐步 迭代 (21.3.2 节 ) 有 效 地 解决 。 但 
是 , LS-SVM 的 求解 有 一 些 潜 在 的 缺点 。 第 一 点 不 足 就 是 缺少 稀疏 性 , 所 有 的 数据 点 都 影响 着 
整个 模型 ， 数 据点 的 相对 重要 性 通过 其 支持 向 量 给 出 。 第 二 点 不 足 广 为 人 知 ， 是 使 用 的 均 方 
和 损失 函数 没有 正则 化 ,这 将 会 导致 当 数据 中 存在 离 群 值 ， 或 者 当 误 差 变量 服从 高 斯 分 布 这 
一 假设 不 成 立时 , 估计 函数 缺少 一 定 的 健壮 性 。 

离 群 值 的 问题 是 较 大 误差 的 平方 导致 误差 过 大 ,可 以 通过 加 权 的 最 小 二 乘法 ， 即 对 那些 
非常 大 的 误差 进行 加 权 来 解决 , 这 将 会 使 估计 更 稳健 。 

这 种 方法 首先 应 用 非 加 权 的 LS-SVM 计算 结果 , 然后 根据 第 一 步 误差 变量 的 结果 对 LS- 
SVM 的 误差 变量 加 权 , 最 终 需 要 在 非 加权 的 LS-SVM 上 解决 一 系列 的 加 权 LS-SVM 问题 。 这 
种 做 法 是 为 了 根据 训练 数据 调整 所 用 的 基本 损失 函数 ， 而 不 是 直接 使 用 事先 定义 好 的 损失 函 

为 了 在 之 前 LS-SVM 的 结果 上 得 到 一 个 稳健 估计 , 在 接 下 来 的 步骤 中 , 对 误差 变量 ep = 
ar/y 加 以 权重 因子 w， 将 得 到 以 下 优化 问题 
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£ 
1 ur 1 
r * * *2 
min 一 w 十 一 > UKER 
w*,b*,e* 2 A k 





加 权 LS-SVM 问题 的 未 知 变量 用 * 符号 标 出 。 
权重 vi 的 选择 主要 基于 ( 非 加权 ) LS-SVM 中 的 误差 变量 ej = an /yo 首先 得 到 3, 然后 
就 可 以 得 到 LS-SVM 中 误差 变量 ex 标准 求 导 的 一 个 稳健 估计 : 
IQR 
° 3.0.6745 
四 分 位 差 QR) 为 较 大 的 四 分 位 数 与 较 小 的 四 分 位 数 之 差 ， 显 然 ,， 类似 于 离 群 值 的 极端 数据 
不 在 该 估计 范围 内 ， 所 以 这 种 方法 是 健壮 的 。 具 体 来 说 ， 稳 健 估 计 区 可 以 通过 计算 下 式 得 
到 : 


















































(12.2) 

































































1 lex, /8| < C1 
v=} So lex 3} cl < lex /3| < c2 (12.3) 
C2 — C1 
1074 其 他 情况 











常数 ck 和 ca 通常 取 cl = 2.5 和 ca = 3， 这 是 考虑 到 高 斯 分 布 中 ， 残 差 的 值 很 少 有 超过 2.58 
的 , 所 以 那些 在 高 斯 分 布 中 过 大 的 误差 变量 将 会 被 赋予 越 来 越 小 的 权重 。 

如 果 需 要 ， 上 述 过 程 可 以 迭代 重复 进行 , 不 过 在 实际 应 用 中 ,一 次 额外 的 加 权 LS-SVM 
就 足够 了 。 最 后 的 算法 请 参考 图 12-2。 
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1. LS_SVM 算法 (€ 个 训练 数据 点 ) 
| 使 用 式 (12.1) 中 的 线性 方程 组 , 通过 K 折 交 叉 验证 找到 最 优 (7, 0) 
ek — Qk/Y 
使 用 式 (12.2) 计算 ex 分 布 的 8 值 
通过 计算 式 (12.3) 确定 基于 ep 和 8 的 权重 wk 
给 定 以 下 模型 , 根据 式 (12.1) 求解 a* 和 b* 
£ 


7. | y(@) = >》 af K (a, ap) + b* 



































A E Or 











~ 图 12-2 ”加 权 LS-SVM 算法 
估计 量 的 崩溃 点 是 稳健 估计 的 一 个 重要 概念 。 崩 演 点 表示 使 估计 量 骨 淡 的 最 小 比例 ， 即 











当 给 定数 据 集中 最 少 有 百 分 之 多 少 的 数据 被 〈 离 群 值 ) 污染 时 ， 能 使 最 终 得 到 的 估计 量 与 原 
始 数据 得 到 的 估计 量 相差 任意 远 。 在 线性 回归 中 , 标准 不 加 正则 项 的 最 小 二 乘 估计 导 溃 点 很 























低 ， 使 用 加 权 LS-SVM 可 以 大 幅 提高 骨 溃 点 的 值 。 

















12.3 ”通过 修剪 恢复 稀 下 C 


标准 SVM AA PRE, 因为 许多 ax 的 值 为 0, 而 由 于 在 最 优 情 况 下 ak = yer» 
则 没有 这 样 的 性 质 。 文 持 值 揭示 了 数据 点 对 模型 贡献 的 相对 重要 性 。 


















































身 对 LS-SVM 进行 前 校 。 通 过 对 排序 好 的 支持 值 谱系 逐步 剪 枝 ， 即 将 较 小 的 归 
将 稀 玖 性 强加 至 加 权 LS-SVM E: 通过 这 种 方法 , 不 重要 的 数据 点 (根据 其 支持 值 





























LS-SVM 


就 像 多 层 感 知 器 可 以 根据 黑 塞 矩 阵 进行 剪 梳 [例如 最 佳 大 脑 破 坏 法 (optimal brain dam- 
age) [7 和 最 佳 大 脑 手术 (optimal brain surgeon) 54],， 参考 文献 [105] 提出 了 根据 解 向 量 自 








零 ， 就 能 


S, A 





























去 , LS-SVM 在 剩 下 的 数据 点 上 重新 计算 ,但 需要 在 整个 训练 数据 集中 验证 。 























) 将 被 舍 














通过 舍 去 相对 少量 的 最 无 意义 的 数据 点 ( 设 其 ax 值 为 0)， 并 重新 计算 LS-SVM, wie 
得 到 一 个 稀 疏 的 最 优 结果 。 为 了 保证 良好 的 泛 化 能 力 , 在 每 一 步 剪 枝 时 都 可 以 最 优化 (7, 0)» 





















































比如 通过 定义 一 个 独立 的 验证 集 或 10 TAC IE» 图 12-3 描述 最 终 的 算法 流程 。 














1. LS_SVM_pruning 算法 (6 个 训练 数据 点 ) 
Lich 
FE 能 下 降 前 一 直 重 复 
对 2 训练 数据 应 用 LS_SVM 算法 
根据 下 降 梯度 |ax| 分 类 训练 数据 
在 分 类 的 |ax| 范围 内 移 除 最 后 M 个 数据 点 
[VLM 
图 12-3 加权 LS-SVM 剪 枝 算法 
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Eb SY a er 











通常 , 在 对 LS-SVM 进行 剪 梳 时 ， 可 以 不 改变 (7,0) 的 值 , 等 到 模型 的 泛 化 能 力 开 始 退 
































化 时 《例如 通过 验证 集 或 交叉 验证 的 平均 值 来 检查 09)， 再 去 更 新 (ya) 的 值 。 相 比 于 其 
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他 方法 需要 解决 一 个 包含 很 多 超 参数 选择 的 二 次 规划 问题 ， 这 种 方法 的 一 个 潜在 的 优势 就 是 





(7,0) 的 计算 可 以 在 局 部 进行 。 





12.4 算法 改进 : 调谐 QP、 原 始 版 本 、 无 补偿 











对 于 SVM 的 改进 主要 涉及 两 个 方面 , 一 个 是 适应 于 SVM 的 二 次 规划 的 详细 实现 , 另 一 








个 是 对 问题 定义 的 细微 修改 , 这 些 改进 对 于 SVM 的 CPU 运行 时 间 和 最 终 性 能 都 有 潜在 的 巨 














影响 o, 





A (11.7) 中 的 二 次 形式 包含 一 个 矩阵 ,， 它 的 元 素 个 数 是 训练 样本 数 的 平方 《矩阵 元 素 包 
含 了 每 两 个 样本 间 所 有 可 能 的 核 “ 相 似 度 ”) 。 参 考 文献 27] 首先 提出 将 大 型 SVM 学 习 问 题 
分 割 成 一 系列 较 小 的 优化 任务 的 方法 , 即 分 块 法 (chunking algorithm )。 这 种 方法 首先 从 训练 
集中 随机 取出 一 个 子 集 , 在 该 数据 集 上 解决 SVM 问题 ， 然 后 不 断 迭 代 添 加 那些 不 满足 最 优 















































条 件 的 样本 。 
参考 文献 [87 
































中 的 工作 展示 了 相 比 于 使 用 现成 的 三 次 规划 软件 , 使 用 专门 设计 的 二 次 规 


划 求 解 算 法 的 效率 能 提升 多 少 (以 及 , 研究 求解 的 数学 细节 , 效率 又 能 提升 多 少 ) 。 序 列 最 小 优 
化 算法 (Sequential Minimal Optimization, SMO) 将 求解 的 大 规模 二 次 规划 问题 分 割 成 一 系列 
较 小 的 二 次 规划 问题 。 这 些 较 小 二 次 规划 问题 可 以 直接 解析 求解 ， 从 而 避免 了 二 次 优化 耗 时 
的 数值 计算 , 也 就 是 内 循环 。SMO 对 内 存 的 需求 随 着 训练 数据 集 的 大 小 线性 增长 , 所 以 SMO 
可 以 处 理 非 常 大 的 训练 集 。 由 于 避免 了 大 规模 矩阵 的 计算 ，SMO 的 规模 随 着 训练 数据 的 增长 
速度 而 介 于 线性 和 二 次 方 之 间 , TRE IE DUPE (projected conjugate gradient, PCG) 







































































是 由 所 求 的 SVM 决定 的 , 因此 SMO 计算 线性 SVM Fl PARE HY ACH SE RE PPR 
























































分 块 法 的 规模 随 着 训练 数据 的 增长 速度 而 介 于 线性 和 三 次 方 之 间 。SMO 的 时 间 复 杂 度 3 


FE 要 





参考 文献 [70] 提出 了 一 种 针对 大 规模 问题 的 SVM 训练 过 程 的 优化 算法 (SVMlight)。 该 
算法 基于 一 种 分 解 策 略 , 通过 一 种 快速 高 效 的 方式 解决 了 SVM 中 工作 集中 参数 的 选择 问题 
具体 来 说 , 该 算法 引入 了 一 种 在 优化 阶段 缩小 问题 规模 的 方法 : 在 SVM 优化 阶段 , 可 以 很 早 


题 。 





确定 某 些 样本 不 太 可 能 成 为 支持 向 量 (support vector, SV), 因此 可 以 通过 排除 这 些 样 本 来 缩 
小 问题 规模 。 当 一 个 SVM 的 数据 集中 支持 向 量 占 整 个 样本 集 的 比例 很 小 时 ， 这 种 算法 特别 












































有 效 。 同时, SVMlight 的 内 存 需 求 随 着 训练 数据 和 支持 向 量 的 数量 线性 增长 。 
























































参考 文献 [37] 提出 了 原始 空间 中 解决 SVM 的 方法 。 大 部 分 关于 SVM 的 文献 都 关注 其 
对 偶 优 化 问题 。 参 考 文 献 [37] 的 作者 认为 SVM 的 原始 问题 也 可 以 得 到 有 效 解决 ， 并 且 研 究 














者 没有 理由 忽视 这 个 可 行 的 方法 。 另 一 方面 ， 从 原始 空间 的 视角 来 看 ， 可 以 研究 一 些 新 的 大 

















规模 SVM 的 训练 算法 家 族 。 通 常 ， 使 用 对 偶 问 题 来 解决 SVM 的 主要 原因 是 : 
(1) 对 偶 理论 可 以 很 方便 地 处 理 约束 条 件 ; 
(2) SVM 的 对 偶 优化 问题 可 以 写成 点 积 的 形式 ,， 因 此 可 以 使 用 核 函 数 方法 。 


















































SVM 原 问题 的 牛顿 优化 法 有 着 和 对 偶 优 化 法 相同 的 计算 复杂 度 , 但 涉及 近似 解 时 , 原 优化 方 


12.4 算法 改进 : 调谐 QP、 原 始 版 本 、 无 补偿 ”109 














法 更 胜 一 筹 ， 因 为 它 更 关注 于 我 们 想 要 最 小 化 的 函数 : 原始 目标 函数 。 原 优化 方法 在 大 规模 
最 优化 问题 上 或 许 更 具 优 势 。 显然， 当 训 练 数据 的 数量 很 多 时 , 支持 向 量 的 数量 也 会 很 多 , 想 
要 得 到 问题 确切 的 解 将 变 得 很 困难 ,所 以 一 般 需 采取 近似 的 方法 ,但 是 在 对 偶 空 间 中 使 用 近 
似 的 方法 显然 是 不 明智 的 ,因为 对 偶 空 间 得 到 的 近似 值 并 不 能 保证 其 在 原 空间 中 也 是 一 个 好 
的 近似 。 

另 一 方面 ， 参 考 文献 [102] 对 不 带 偏 移 量 的 支持 向 量 机 分 类 器 构建 并 分 析 了 一 种 训练 算 
法 。 过 去 , SVM 是 基于 特征 空间 中 线性 判别 面 的 儿 何 形式 设计 的 , 如 图 11-3 所 示 , 这 种 形式 
自然 使 用 偏 移 量 b, 即 判别 面相 距 原 点 的 偏 移 , 但 是 这 种 几何 形式 有 着 严重 的 弊端 。 尽 管 这 种 
形式 具有 很 好 的 可 视 性 , 但 我 们 绝对 不 能 简单 地 根据 其 在 低 维 空间 的 示例 去 选择 算法 。 
结果 表明 , 解决 带 偏 移 量 的 SVM 最 优化 问题 比 不 带 偏 移 量 有 着 更 多 的 约束 。 仿 移 量 导 
致 对 偶 优 化 问题 中 多 了 一 个 等 式 约束 , 该 等 式 使 得 SVM 的 一 些 常 用 解法 ， 如 SMO, 必须 在 
每 次 达 代 中 更 新 至 少 两 个 对 侦 变 量 的 值 B71。 

参考 文献 [102] 的 作者 针对 不 带 偏 移 量 的 SVM 构建 了 一 些 算法 。 这 些 算法 不 仅 比 那 些 带 
偏 移 量 的 SVM 更 准确 , 还 运行 得 更 快 。 
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最 小 二 乘 支 持 向 量 机 采用 等 式 而 非 不 等 式 进行 分 类 (通常 将 正 例 映射 到 +1, 负 例 映射 
到 —1), 这 样 , 对 于 误差 的 二 次 神 分 经 过 偏 导 并 令 梯度 为 0 后 , 将 得 到 一 个 线性 方程 组 。 

非常 大 的 偏差 会 导致 二 次 罚 分 快速 增长 , 因此 很 少 的 离 群 值 就 能 导致 模型 失灵 。 使 用 
稳健 统计 的 方法 , 将 离 群 值 对 收益 函数 的 影响 降 到 最 低 ， 可 以 消除 其 对 模型 过 度 干扰 ， 即 
通过 给 那些 非常 大 的 误差 赋予 很 小 的 权重 , 得 到 健壮 加 权 最 小 二 乘 SVM. 

二 次 表达 式 中 稀 玻 性 的 缺失 可 以 通过 剪 枝 的 方法 恢复 , 那些 几乎 无 意义 的 数据 点 将 被 
移 除 , LS-SVM 在 剩余 的 数据 集 上 重新 计算 。 

传统 的 最 小 二 乘法 最 小 化 残 差 的 均 方 和 ， 仍 然 能 给 予 一 些 新 型 方法 〈 比 如 SVM) 强 
有 力 的 支持 , 所 以 当 与 新 型 方法 比较 的 时 候 , 绝对 不 要 低估 优秀 的 传统 方法 和 线性 代数 方 
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第 13 章 ”机 器 学 习 中 的 民主 


每 个 共和 国都 有 两 个 相互 冲突 的 阶层 : 平民 和 贵族 。 正 是 
在 这 样 的 冲突 中 ,诞生 了 捍卫 自由 的 法 律 . 


一 一 马 基 雅 弗 利 








你 已 经 发 现 , 用 于 解决 监督 学 习 中 的 问题 的 有 效 技术 有 许多 ,每 项 技术 的 区 别 在 于 模型 
选择 和 元 参数 的 不 同 : 当 考 虑 到 这 样 的 灵活 性 时 ， 人 们 很 容易 就 能 想到 许多 可 用 于 完成 给 定 
任务 的 模型 。 

当面 对 这 样 丰富 的 选项 时 ， 人 们 可 以 只 选择 最 好 的 模型 (以 及 最 佳 的 元 参数 ) 并 扔 掉 其 
他 一 切 ， 或 者 永远 不 嫌 好 东西 多 并 尝试 所 有 的 可 能 性 至 少 是 最 好 的 那些 。 你 已 经 耗费 精 
力 和 CPU 时 间 来 选择 最 佳 模型 和 元 参数 ， 并 顺带 着 生成 许多 模型 。 是 否 有 合理 的 方法 来 回 
收 它们 ， 使 得 之 前 的 努力 不 会 白费 ? 放 轻松 , 本章 不 再 引入 全 新 的 模型 ， 而 会 用 灵活 、 创 新 和 
有 效 的 方法 来 处 理 许多 不 同 的 模型 。 在 某 些 情况 下 ,这 样 做 的 优点 是 很 明确 的 ,使 用 多 种 模 
型 与 否 , 可 以 决定 ML 竞赛 的 输赢 

本 书 的 中 心思 想 是 , 许多 ML 原理 可 以 类 比 于 人 类 的 某 种 学 习 形 式 。 询问 专家 团体 是 一 
个 人 做 出 重要 决定 的 方式 ,如 果 参 与 者 有 不 同 的 专长 和 与 专业 水 平 相 当 的 敬业 精神 ,那么 这 
个 团体 就 能 工作 得 很 好 。 背景 文化、 性 别 上 的 差异 被 认为 是 创新 型 商业 成 功 的 重要 因素 。 民 
主 本 身 可 以 被 认为 是 一 种 凝聚 公民 知识 以 做 出 可 执行 决策 的 务实 方式 (好 吧 ， 也 许 并 不 总 是 
最 优 的 , 但 总 比 一 个 人 说 了 算 好 )。 




























































































13.1 堆 登 和 融合 111 














在 6.2 节 中 我 们 已 经 遇 到 了 一 个 有 创意 的 用 法 , 将 很 多 分 类 树 当 作 分 类 森林 。 本 章 会 总 结 
更 多 有 效 利用 不 同 ML 模型 的 主要 技术 , 重点 讨论 架构 原则 ,也 会 涉及 一 些 基 本 的 数学 原理 。 


















































13.1 ZMR 


如 果 你 参加 了 一 个 机 器 学 习 竞 赛 〈 或 者 如 果 你 想 赢 得 一 个 合同 ， 或 者 需要 为 某 个 迫切 的 
业务 寻求 一 个 解决 方案 ), 没准 你 会 尝试 不 同 的 方法 ,并 拿 出 一 大 堆 模 型 。 就 像 好 的 咖啡 , 融 
合 起 来 可 能 会 更 加 美味 。 

有 两 种 简单 的 方式 来 组 合 各 种 模型 的 输出 : 通过 投票 和 通过 平均 。 假 设 我 们 的 任务 是 将 

模式 分 为 两 类 。 在 投票 中 , 每 个 训练 得 到 的 模型 为 某 一 类 投票 ,收集 选票 后 , 最 终 的 输出 是 拥 

有 更 多 选票 的 那 一 个 ， 就 像 少数 服从 多 数 的 基本 民主 程序 一 样 。 如 果 每 个 模型 正确 分 类 的 概 

率 大 于 1/2, 并 且 不 同 模型 的 误差 是 不 相关 的 ， 那么 ， 随 着 模型 数量 的 增长 ，M 个 模型 中 大 

多 数 出 错 的 概率 将 为 零 。 然 而 , 在 实际 情况 中 , 误差 之 间 往 往 是 相关 的 。 如 果 一 个 模式 难以 识 

A, 那么 对 于 许多 模型 来 说 也 将 如 此 ， 其 中 多 个 模型 出 错 的 概率 会 高 于 它们 单独 错误 概率 的 

乘积 , 优势 就 不 会 那么 显著 。 想 一 想 信封 上 的 邮政 编码 , 如 果 数 字 上 有 污渍 ,就 会 令 许多 模型 

难以 识别 ， 从 而 将 误差 关联 起 来 。 

若 任 务 是 预测 概率 (给 定 输 入 模式 所 对 应 类 别 的 后 验 概率 ), 则 另 一 种 选择 是 求 各 个 概率 
的 平均 值 。 顺便 说 一 句 , 对 实验 测量 值 求 平均 是 方差 缩减 的 标准 方法 。 在 一 定 的 条 件 下 , 统计 
学 中 的 “大 数 定律 ”解释 了 为 什么 大 量 尝试 的 结果 的 平均 值 往往 接近 于 期 望 值 ， 并 且 解 释 了 
为 什么 尝试 次 数 越 多 就 越 接 近 。 
虽然 看 上 去 很 简单 ， 投 票 和 平均 有 个 共同 的 缺点 : 它们 一 视 同仁 地 对 待 所 有 模型 ， 因 此 
最 优 模型 的 性 能 会 埋没 在 一 团 平 庸 的 模型 之 中 。 一 个 决策 越 复杂 ， 就 越 需要 针对 不 同 专家 进 
行 加 权 , 并 且 加 权 应 该 依赖 于 特定 的 输入 。 

你 其 实 已 经 有 了 一 把 解决 专家 加 权 问 题 的 利器 : 机 器 学 习 本 身 ! 只 需 在 其 上 添加 一 个 线 
性 模型 ， 由 0 级 模型 (专家 ) 连接 不 同 的 输出 , 并 让 ML 确定 最 住 的 权重 ( 见 图 13-1)。 这 是 
HEB ZAE (stacked generalization) [17] 的 基本 思路 。 请 注意 , 为 了 避免 过 度 训 练 , 用 于 训练 堆 
登 模型 〈 确 定 顶 部 附加 层 的 权重 ) 的 训练 实例 必须 从 未 在 之 前 任何 模型 的 训练 中 使 用 过 。 训 
练 实例 就 像 鱼 肉 : WRIT RA, 那么 就 会 变 具 ! 
HE BIZ OA BF AY GSR [108]。 

。 如 果 可 行 , 使 用 类 别 的 概率 作为 原来 的 0 级 模型 输出 〈 而 不 是 类 别 的 预测 ) 。 概 率 的 佑 
计 会 提供 一 些 置 信 度 的 信息 ， 而 不 仅仅 是 预测 。 保 持 它 们 的 原样 ， 会 以 更 高 的 水 平 给 
出 更 多 的 信息 。 

o 通过 向 优化 任务 添加 约束 来 确保 组 合 权重 非 负 。 它们 对 堆 共 回归 准确 率 的 提高 而 言 是 
必需 的 ,对 于 分 类 任务 而 言 则 不 是 必需 的 ,但 在 这 两 种 情况 下 ,它们 都 提高 了 1 级 模 
型 的 可 解释 性 〈 零 权重 是 指 不 使 用 相应 的 0 级 模型 ， 权重 越 高 , 模型 就 越 重 要 )。 













































































































































































































































































































































































































































































0 级 模型 
图 13-1 通过 在 模型 之 上 增加 附加 模型 来 融合 不 同 模型 〈 堆 登 ) 
































如 果 你 的 胃口 还 没有 满足 , 可 以 用 多 层次 组 合 来 进行 实验 , 或 者 使 用 更 多 结构 化 组 合 。 例 
W, 你 可 以 在 MLP 和 决策 森林 之 上 进行 堆 登 ,或 者 通过 添加 另 一 层次 〈 见 图 13-2) 结合 已 经 
完成 的 一 组 堆 共 模型 。 管理 的 模型 越 多 , 对 上 面 提 到 的 “发 自 的 实例 ”规则 就 必须 更 加 小 心 。 
高 层次 的 模型 并 不 需要 是 线性 的 : 这 会 损失 一 些 可 解释 性 , 但 非 线 性 模型 可 能 会 使 最 终 的 结 
果 更 好 。 


















































“先前 的 玲 莹 模型 


图 13-2 ” 堆 登 可 应 用 于 不 同 的 模型 ， 其 中 包括 先前 已 经 堆 和 登 的 





























特征 加 权 线 性 堆 到 是 一 个 有 趣 的 选择 88 。 作 为 一 个 具体 的 例子 ， 它 展示 了 现实 世界 的 
应 用 如 何 产 生 优雅 的 解决 方案 。 某 些 情 况 下 ， 我 们 会 有 一 些 附加 信息 ， 即 原始 输入 特征 之 外 
的 “元 特征 ”。 例 如 ， 如 果 目 标 是 预测 客户 偏好 并 为 其 提供 各 种 产品 〈 在 协同 过 滤 和 建议 的 场 
景 中 ), 模型 的 可 靠 性 可 以 根据 附加 信息 而 变化 。 举 例 而 言 , 对 于 评价 了 许多 产品 的 用 户 , 某 
模型 4 可 能 更 可 靠 (在 这 种 情况 下 , 该 用 户 评 价 过 的 产品 数量 是 “元 特征 ”)。 为 了 保持 线性 
H, 同时 又 允许 权重 依赖 于 元 特征 (对 于 评价 了 更 多 产品 的 客户 , 模型 A 可 以 有 更 大 的 权 
E), 可 以 要 求 权重 与 元 特征 的 关系 是 线性 的 。 WR gi(z) 是 对 于 0 级 模型 i 的 输出 , 方 (z) 是 
第 j 个 元 特性 ,那么 权重 为 : 
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w; (x) = 2 vij fj (2) 
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其 中 ui 是 由 














EBAY =A SSB. 1 级 输出 是 : 





b(a) = 》 vig fi 


emir ES A PREDIN HEHE BS AS l pa 


由 于 该 模型 仍然 与 v 呈 线 性 关系 ,我 们 可 以 使 用 标准 的 线性 回归 分 析 来 确定 最 佳 的 v。 像 入 





ma 于 并 (ofiojo(o) -yj 
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常 一 





样 ,， 永远 不 要 低估 线性 














回归 的 能 力 ， 前 提 是 能 以 适当 的 方式 来 创造 性 地 运用 它 。 


13.2 ”实例 操作 带 来 的 多 样 性 : 装 袋 法 和 提升 法 


为 了 成 功 地 建立 一 个 民主 的 ML 系统 ， 人 们 需 
mble), 像 一 群 
RAE, 其 近义词 是 多 分 类 器 系统 (multi-cl 
创建 多 样 
用 训练 样本 的 不 同 子 集 来 进行 训 


也 称 为 集成 (ense 
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多 种 技术 可 以 根据 




















(bootstrap aggregation) 
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Ag 


在 一 起 表演 的 音乐 家 。 在 文献 











assifiers system) 。 
性 的 主要 方式 组 织 起 来 [il 。 
练 是 一 种 可 行 的 方式 。 在 装 























， 不 同 的 子 集 























抽取 )。 每 个 自助 副本 包含 原始 实例 约 三 分 2 
平均 ,或 者 根据 多 数 决定 原则 汇合 起 来 。 如 果 数据 有 微小 变化 ， 不 稳定 的 学 习 算法 常常 会 使 























结果 变化 很 大 , 装 袋 法 在 提高 稳定 性 


中 产生 分 类 森林 。 














一 套 准 确 且 多 样 化 的 分 类 器 或 回归 器 ， 


P， 集 成 方法 是 这 些 技术 的 传 





袋 法 [bagging, 即 “ 自 助 汇合 ” 


带 放 回 的 随机 抽样 产生 (同一 个 实例 可 以 被 多 次 
(实际 上 ~ 63.2%)。 不 同 模型 的 结果 通过 求 





























方面 表现 良好 。 如 6.2 节 所 述 , 闭 袋 法 可 以 从 一 组 分 类 树 


交叉 验证 团体 〈cross-validation committee) 将 训练 数据 划分 的 不 相交 子 集 用 来 准备 不 同 





的 训练 集 。 这 种 情况 下 使 用 交叉 验证 





耗费 额外 的 CPU )。 


操纵 训练 集 的 更 动态 的 方式 是 通过 提升 法 (boosting)。 这 一 术语 是 基于 这 样 
弱 分 类 器 (尽管 性 能 必须 比 随机 
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助 法 一 样 , 提升 法 也 创建 多 个 模型 ， 




















E 定 模型 性 能 ， 各 种 模型 的 产生 是 

































































分 类 


器 略 好 ) 的 性 能 可 以 被 “ 提 























副产品 (并 且 不 需要 
个 事实 , 即 
升 "”， 从 而 得 到 一 个 精确 的 团 














日 每 次 迭代 产生 的 模型 是 建立 在 




















自 适应 的 方式 上 的 , 能 直接 改进 之 前 创建 的 模型 的 组 合 。 算法 AdaBoost 维护 一 组 训练 实例 的 
权重 。 每 次 迭代 后 , 权重 会 更 新 ， 当 前 模型 分 类 错误 的 实例 会 有 更 高 的 权重 ( 见 图 13-3). wt 
































像 一 位 专业 的 教师 , 他 在 课程 中 会 更 愿意 使 用 那些 还 未 被 学 生 完 








最 终 的 分 类 器 hj(z) | 














加 权 训 练 集 上 训练 的 准确 率 : 

















全 理 








解 的 例子 。 








各 个 分 类 器 加 权 投 票 来 决定 。 每 个 分 类 器 的 权重 反映 了 它 在 这 些 





hy (a) = 》 wih(z) 
l 
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. 
a eo 


当前 迭代 中 的 分 类 错误 实例 


图 13-3 ”在 提升 法 中 , 当 训练 新 的 模型 添加 到 团体 中 时 ,当前 迭代 中 分 类 错误 的 实例 会 被 赋予 更 

大 的 权重 

于 我 们 笃信 优化 的 强大 力量 ,理解 提升 法 的 最 好 方法 就 是 通过 它 所 优化 的 函数 。 通 过 

改变 优化 的 函数 或 者 通过 改变 优化 的 细节 ， 可 以 得 到 (和 理解 ) 不 同 的 变形 。 为 了 定义 误差 

函数 , 假设 每 个 训练 实例 的 输出 y; 只 能 是 +1 或 -1。 (A mi = yih(zi) 称 为 分 类 器 h 在 训练 

数据 集 上 的 间隔 , 分 类 准确 时 为 正 ， 否则 为 负 。 正如 13.6 节 中 将 要 看 到 的 那样 , 适应 提升 法 
AdaBoost 可 以 被 看 作 最 小 化 下 面 的 误差 函数 的 阶段 性 算法 : 


S exp (nZ mte) (13.1) 
i l 


该 目标 函数 是 加 权 分 类 器 的 间隔 的 负 指 数 。 这 其 实 等 价 于 最 大 化 训练 数据 集 上 的 间隔 。 









































































































































13.3 ”特征 操作 带 来 的 多 样 性 


特征 的 不 同 子 集 可 以 用 来 训练 不 同 的 模型 ( 见 图 13-4)。 某 些 情况 下 , 根据 不 同 的 性 质 来 
组 合 特征 可 能 是 有 用 的 。 在 参考 文献 [38] 中 ,这 一 方法 用 来 识别 金星 上 的 火山 ,并 表现 出 了 
媲美 人 类 专家 的 性 能 。 由 于 不 同 的 模型 都 需要 足够 精确 ， 使 用 特征 子 集 只 有 在 特征 高 度 元 余 
的 情况 下 才 会 有 效 。 



















































































图 13-4 使 用 特征 的 不 同 子 集 来 创建 不 同 的 模型 。 该 方法 不 局 限于 线性 模型 
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13.4 ”输出 值 操作 带 来 的 多 样 性 : 纠 错 码 


纠 错 码 (ECC) 的 设计 是 为 了 在 有 噪 线路 传输 时 ,即使 有 一 定数 量 的 错误 , 也 能 保证 健壮 
性 〈 见 图 13-5)。 例 如, 如 果 “ 一 ”的 码 字 是 “111”“ 零 ”的 码 字 是 “000” 那么 一 个 二 进 制 位 
的 错误 如 “1o1” 是 可 以 接受 的 《该 码 字 将 被 映射 到 正确 的 “111”)。 参 考 文献 [44] 中 提出 的 
纠 错 输出 码 可 以 用 来 设计 分 类 器 团体 。 


000 
100 
010 O> Class zero% 
ep 5> ~ = 


图 13-5 纠 错 码 里 设计 了 宛 余 编码 来 抵抗 一 定数 量 的 错误 二 进 制 位 (bit) 


H ECC 来 设计 专家 团体 , 是 将 每 个 输出 分 类 了 用 一 个 工 位 的 码 字 C; 来 编码 。 团体 中 训 
练 得 到 的 第 7 个 分 类 器 用 于 预测 码 字 的 第 1 位。 经 由 团体 中 工 个 分 类 器 生成 所 有 的 位 之 后 ， 
输出 与 其 最 相近 码 字 对 应 的 类 别 (用 汉 明 距离 ， 即 不 同位 的 数量 )。 由 于 码 字 是 见 余 的 , 个 别 
分 类 器 造成 的 一 定量 的 误差 可 以 被 整个 团体 纠正 。 

当然 , 不 同 集成 方法 也 可 以 结合 使 用 。 例如 , 纠 错 输 出 码 可 以 和 提升 法 相 结 合 ， 
以 与 特征 选择 相 结 合 , 某 些 情况 下 这 些 结合 有 非常 好 的 结果 。 


13.5 ”训练 阶段 随机 性 带 来 的 多 样 性 


许多 训练 算法 本 身 束 带 有 随机 性 , 这 种 随机 性 是 得 到 多 样 化 模型 的 一 个 很 自然 的 方法 GB 
过 改变 随机 数 生成 器 的 种 子 )。 例 如 , MLP 从 随机 初始 权重 开始 。 树 算法 中 , 在 确定 内 部 节点 
要 测试 的 特征 时 , 可 以 用 随机 的 方式 , 就 像 得 到 决策 森林 那样 。 

最 后 ， 大 多 数 用 于 训练 的 优化 方法 也 有 加 入 随机 性 的 空间 。 例 如 ， 随 机 梯度 下 降 方法 以 
随机 的 顺序 来 展现 模式 。 
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前 文 提 到 了 提升 法 , 它 按 次 序 在 重新 加 权 的 训练 实例 上 应 用 分 类 算法 , 然后 采纳 这 些 模型 
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输出 的 加 权 多 数 票 。 

作为 优化 的 强大 力量 的 例子 , 提升 法 boosting) 可 以 理解 为 一 种 应 用 加 性 logistic 回归 
的 方法 , 这 是 一 种 以 前 推 阶 段 性 方式 来 拟 合 一 个 加 性 模型 D, hmle) 的 方法 9 。 

接 下 来 从 简单 的 函数 开始 : 
































hm(¥) = Bmb(@3 Ym) 
































它 由 一 组 参数 y,, 和 作为 权重 的 乘 数 r 确定 。 可 以 将 M 个 这 样 的 函数 组 合成 一 个 加 性 模型 
M M 
Hm (zx) = >》 Am (x) = 5 BmblT; Ym) 
m=1 m=1 














使 用 贪心 逐步 向 前 法 (greedy forward stepwise approach), 我 们 可 以 确定 每 次 迭代 中 最 优 的 参 
数 (Bm: Ym) 这 样 新 加 进来 的 简单 函数 往往 能 纠正 前 面 模型 F(x) 的 误差 ( 见 图 13-6)。 如 
果 将 最 小 二 乘 用 作 拟 合 判 据 ; 














(Bm: Ym) = argmin E [(y ~ Fn- (2) ~ Bla; 7)? (13.2) 






































其 中 BL) 是 期 望 值 ， 由 所 有 实例 的 和 估计 得 到 。 这 一 贪心 式 的 过 程 可 以 一 般 化 为 向 后 拟 合 
(backfitting), 每 次 达 代 都 拟 合 一 个 参数 对 (Om Ym) 并 不 一 定 是 最 后 一 个 参数 对 。 eae 
方法 仅仅 要 求 算法 对 数据 拟 合 单个 弱 学 习 器 (aes y) E HE BEE a Ba a_i IS 
修改 过 的 〈 见 图 13-7): 

Ym =y- >》 h(x) 


km 






































目标 输出 
ie Delta 校 正 
预测 输出 


准备 预测 
他 oe ee ———} 


图 13-6 ”加 性 模型 步骤 : 在 训练 实例 上 测量 当前 模型 的 误差 。 加 入 第 二 个 模型 是 为 了 抵消 这 一 误差 
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对 于 分 类 问题 , 用 平方 误差 损失 (关于 理想 的 输出 值 0 或 1) Se BUI. 如果 想 要 估计 
后 验 概率 Pr(y = jz), 将 不 保证 该 输出 被 限制 在 [0,1] 的 范围 内 。 男 外 , 误差 平方 不 仅仅 惩罚 
真实 的 误差 (比如 应 该 是 1, 而 预测 是 0), 而 且 也 制裁 分 类 “过 于 正确 ”的 (比如 应 该 是 11 
预测 是 2)。 
logistic 回归 能 解决 这 些 问题 ( 见 8.1 节 ): 采用 加 性 模型 五 (z) 来 预测 一 个 “中 间 ” 值 
然后 用 logistic 函数 将 其 挤 压 〈squash) 到 正确 的 [0,1] 区 间 内 ， 以 获得 最 终 的 概率 形式 的 
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不 日 标 输 出 
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Delta2 校正 0 
预测 输出 O 
— 目标 输出 
i Deltal 校正 l o 
预测 输出 0 
准备 校正 
Delta 2 


(rmen) 
Ù anm =t 


图 13-7 加 性 模型 中 的 贪心 逐步 向 前 法 , 通过 添加 新 的 组 件 的 迭代 来 取消 剩余 的 误差 
加 性 logistic 模型 的 形式 是 : 




















Pr(y=1|x) _ 
m= e 
其 中 左边 的 分 对 数 Cogit) 变换 将 概率 值 Pr(y = 1|z) € [0,1] 单调 地 映射 到 整个 实数 轴 上 。 因 
此 ,分 对 数 变换 (及 其 道 变换 ) 














sr 











eH (æ) 
保证 了 概率 估计 落 在 正确 的 [0,1] 区 间 内 。 事 实 上 , H(e) 为 式 (13.3) 中 的 logistic 函数 的 输入 
现在 , 如果 考虑 期 望 值 BB [e-Y(3)]， 可 以 证 明 它 在 满足 以 下 条 件 的 时 候 是 最 小 的 : 
1, Pr(y= 1|z) 
ln 
2 Pr(y = —1|z) 






































H(zx) = 








即 Pr(y = la) 的 对 称 logistic 变换 (注意 前 面 的 因子 1/2)。 一 个 有 趣 的 结果 是 , AdaBoost 通 
过 类 似 牛 顿 法 更 新 ”来 最 小 化 [e] 从 而 建立 加 性 logistic 回归 模型 。 技术 细节 和 其 他 








相关 研究 见 参考 文献 [46]。 























13.7 ”民主 有 助 于 准确 率 一 拒绝 的 折 中 

















在 模式 识别 系统 的 许多 实际 应 用 中 ,还 有 男 











种 “旋钮 ”需要 打开 : 拒绝 为 某 些 实例 分 





类 。 对 于 一 些 难 以 处 理 的 实例 , 拒绝 对 其 分 类 , 然后 进行 人 工 处 理 (或 者 更 复杂 和 昂贵 的 二 级 











系统 )， 要 好 过 接受 一 切 并 对 其 分 类 。 作 为 一 个 例子 ， 在 光学 字符 识别 (例如 邮政 编码 识别 》 











中 ， 由 于 书写 不 清楚 , 或 者 分 割 和 预 处 理 的 错误 ， 


























下 ,人工 处 理 常常 可 以 给 出 一 个 更 好 的 分 类 , 或 者 通过 查看 原来 的 明信片 来 修正 预 处 理 
错误 。 假设 ML 系统 有 这 样 的 一 个 附加 旋钮 ， 当 它 打开 时 , 可 以 拒绝 某 些 实例 。 这样 就 有 了 














可 能 会 出 现 难 以 识别 的 情况 。 在 这 种 情况 
Pr 的 
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图 13-8 那样 的 准确 率 - 拒 绝 Caccuracy-rejection) 曲线 , 它 描述 了 可 达到 的 准确 率 性 能 和 拒绝 
率 之 间 的 函数 关系 。 如 果 系 统 正在 以 智能 的 方式 工作 , 最 难 的 未 决 实例 将 首先 被 拒绝 ， 因 此 ， 
即使 拒绝 率 很 小 , 准确 率 也 会 快速 增加 。 一 个 相关 信号 检测 的 “ 折 中 ”曲线 是 接受 者 操作 特征 
(ROC), 图 示 表 明了 二 元 分 类 系统 的 性 能 ， 其 鉴别 闵 值 是 变化 的 , 通过 绘制 真 阳 性 占 实际 阳 
性 总 数 的 比例 (TPR= 真 阳 性 率 ) 和 假 阳 性 占 实际 阳性 总 数 的 比例 (FOR = 假 阳 性 率 ) 在 不 





















































一 二 














同 的 阔 值 设置 下 的 情形 而 来 。 
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100% 
分 类 
准确 率 

80% 

> 
% 10% 100% 
拒绝 百分比 
图 13-8 准确 率 -拒绝 的 折 中 曲线 。 可 以 通过 拒绝 一 些 疑难 的 实例 来 得 到 更 高 的 精度 


























© 用 牛顿 式 的 步 又 进行 优化 , 接 下 来 的 章节 会 进一步 解释 ， 
模型 最 小 值得 到 。 





它 意味 着 推导 参数 的 二 次 近似 ,并且 最 优 参 数 通过 二 次 
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为 简单 起 见 ， 下 面 来 考虑 一 个 二 元 分 类 的 问题 。 在 这 一 问题 中 , 经 过 训练 的 模型 输出 类 
别 为 1 的 后 验 概率 的 近似 值 。 如 果 输 出 接近 1, 判定 是 明确 的 , 这 时 正确 的 分 类 是 1 的 概率 很 
高 。 但 如 果 输 出 接近 0.5 就 会 产生 问题 。 在 这 种 情况 下 ， 该 系统 “未 判定 ”。 如 果 所 估计 的 概 
率 接近 于 0.5， 这 两 个 类 别 具 有 类 似 的 概率 ,误差 将 会 频繁 出 现 〈 如 果 概 率 值 是 正确 的 ,那么 
在 这 种 情况 下 误差 的 概率 等 于 0.5)。 如 果 正 确 的 概率 是 已 知 的 , 当 P( 类 = 1|x) 大 于 1/2, 理论 
上 最 佳 的 贝 叶 斯 分 类 器 判定 为 类 别 1， 和 否则 为 类 别 0。 误 差 将 等 于 剩余 的 概率 。 例 如 P( 类 = 
1a) 为 0.8 时 , 误差 将 有 0.2 的 概率 (给 定 > 是 类 别 为 2 的 实例 , 却 被 分 为 类 别 1 的 概率 )。 

为 后 验 概 率 设 定 下 闵 值 ,要求 它 大 于 (1/247) 是 最 好 的 “旋钮 ”开关 , 通过 拒绝 不 满 
足 该 标准 的 实例 来 增加 精确 度 。 一 种 情况 是 拒绝 接近 两 个 类 之 间 的 边界 的 实例 ， 此 时 这 两 类 
实例 按照 概率 接近 1/2( 见 图 13-9) 的 模式 混合 起 来 。 









































边界 区 域 


P( 类 =0|z) 


后 验 
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13-9 ”一 个 贝 叶 斯 分 类 器 中 的 过 渡 区 域 。 如 果 拒绝 落 在 接近 边界 的 过 度 区 域 的 实例 , 那么 平均 
准确 率 将 会 上 升 























现在 ， 如 果 概 率 是 不 知道 的 ,但 可 以 通过 机 器 学 习 估计 得 到 ,那么 拥有 分 类 器 团体 就 有 
了 更 多 机 会 来 获得 更 高 的 灵活 性 ， 以 及 实现 更 好 的 准确 率 - 拒 绝 曲 线 ng。 例如 ,通过 激活 每 
一 个 具有 不 同 概率 的 分 类 器 ， 可 以 得 到 团队 的 概率 组 合 ， 或 者 多 个 分 类 器 的 组 合 。 如 果 它 们 
之 中 的 全 体 或 者 大 多 数 的 意见 是 一 致 的 , 那 就 意味 着 拥有 高 置信 度 的 实例 ， 因 此 系统 接受 这 
些 实例 。 最 后 ,通过 考虑 输出 概率 (不仅 是 分 类 )、 平 均值 和 阔 值 化 可 以 获得 更 高 的 灵活 性 。 
如 果 有 两 个 以 上 的 类 , 就 可 以 要 求 平均 概率 高 于 第 一 闵 值 , 而 与 第 二 个 最 佳 分 类 的 距离 超过 
BBE. 

实验 结果 表明 ,在 解决 任务 时 得 到 的 许多 分 类 器 ， 如 果 能 通过 智能 的 方式 进行 重用 , 准 
确 率 - 拒 绝 折 中 法 很 容易 获得 理想 的 结果 和 更 高 的 灵活 性 。 
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E M 


拥有 一 些 不 同 但 是 准确 率 相近 的 机 器 学 习 模 型 ， 使 得 我 们 能 够 提升 性 能 ， 从 而 超越 单 
个 系统 (如 机 器 学 习 中 的 集成 方法 、 团体 方法 、 民 主 方法 )。 

在 堆 荆 和 融合 方法 中 ， 各 种 系统 通过 在 单个 模型 的 输出 的 顶端 加 入 男 一 层 而 结合 起 
Ko 

有 多 种 不 同方 法 可 以 在 战略 层面 创造 多 样 性 。 在 装 袋 法 (自助 汇合 ) 中 , 对 同一 组 实 
例 进行 带 放 回 的 采样 。 提 升 法 与 加 性 模型 相关 , 我 们 训练 一 系列 模型 ， 以 确保 当前 系统 中 
最 难处 理 的 实例 会 在 最 新 添加 的 部 分 中 获得 较 大 的 权重 。 使 用 不 同 的 特征 子 集 或 者 不 同 的 
随机 数 生成 器 也 可 能 创造 多 样 性 。 纠 错 输出 码 使 用 一 组 宛 余 的 模型 为 各 种 输出 位 编码 ， 以 
增强 针对 个 别 错误 的 健壮 性 。 

加 性 logistic 回归 是 一 种 优美 的 方式 , 它 通 过 加 性 模型 和 牛顿 式 的 优化 方案 来 解释 提 
升 法 。 优 化 提升 我 们 对 提升 法 的 理解 。 

机 器 学 习 中 的 集成 方法 就 像 茵 士 乐 : 整体 大 于 部 分 之 和 。 茵 士 乐 手 或 模型 在 一 起 工作 ， 
HRHD, 依靠 集 体 的 力量 比 仅 靠 自己 能 创造 更 多 。 
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音乐 是 一 个 水 池 .……… 声音 的 水 池 。 


— 德 克 斯 特 RA 


ie 








在 神经 网 络 和 机 器 学 习 研 究 领 域 , 一 个 “ 备 受 推崇 的 假说 ”长 时 间 占 据 着 统领 地 位 一 一 为 
了 解决 越 来 越 复杂 的 学 习 问 题 , 计算 机 需要 竭尽 所 能 ， 从 越 来 越 错综复杂 的 数据 中 提取 出 构 
造 块 (特征)。 深 度 学 习 、 监 督 预 训练 和 阶段 性 特征 提取 都 是 遵循 该 思想 的 例子 。 

如 果 否 定 上 述 假 设 , 就 得 到 了 储备 池 学 习 (reservoir learning). 储备 池 学 习 的 思想 是 预先 
在 储备 池 中 随机 生成 大 量 特征 , 然后 挖 据 这 些 特征 , 建立 最 终 的 学 习 系 统一 一 通常 采用 极 小 
二 乘法 来 拟 合 储备 池 的 隐藏 输出 和 问题 的 实际 输出 。 虽 然 储 备 池 学 习 对 于 建立 有 效 的 学 习 系 
统 看 起 来 过 于 简单 渡 草 ， 但 是 越 来 越 多 的 实验 证 明 , 在 许多 情况 下 它 的 效率 是 极 高 的 。 在 一 
些 机 器 学 习 的 案例 中 , 储备 池 学 习 能 生成 比较 理想 的 结果 , 或 至 少 能 快速 提供 一 些 初始 的 结 
R, 这 些 结果 可 以 使 用 额外 的 调 参 手段 快速 进行 优化 。 

相 比 于 机 器 学 习 复杂 的 训练 机 制 ， 从 生物 学 的 角度 可 能 更 容易 理解 上 述 的 储备 池 技 术 。 
例如 , 我 们 可 以 很 快 学 会 骑 自 行车 、 唱歌、 说 出 新 单词 , 实际 上 这 些 学 习 过 程 中 只 需 很 少 的 范 
例 。 这 说 明了 “随机 ”构造 块 的 有 效 性 , 我 们 从 储备 池 中 挖 据 这 些 构造 块 , 在 合适 的 结构 下 能 
快速 构造 出 想 要 的 学 习 系 统 并 加 以 微调 。 
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14.1 递归 神经 网 络 








直到 现在 , 我 们 在 建立 机 器 学 习 系 统 时 并 没有 时 间 、 历史、 记忆 的 概念。 换 句 话说 , 时 间 




















和 和 友 代 只 存在 于 训练 中 ， 而 在 学 习 系统 运行 时 并 不 加 以 考虑 。 系 统 运 行 时 ， 输 出 只 和 输入 有 


K, 因为 系统 按照 单 次 “前 馈 ” 的 方式 运行 , 不 存在 循环 的 部 分 。 但 生物 的 学 习 系 统 并 非 总 是 
按照 这 样 简单 的 方式 运行 。 例 如 我 们 唱歌 时 ， 输 出 的 歌声 不 仅仅 依赖 于 当前 输入 的 歌词 和 曲 
还 与 之 前 的 输入 和 输出 有 关 ， 演奏 音乐 、 说 话 、 心 跳 、 呼 吸 、 行 走 等 也 是 如 此 。 这 些 过 各 
at 


调 ， 


为 。 





在 了 



















































































循环 和 振荡 ,是 一 种 比 单 步 输入 -输出 系统 ( 仪 仅 实现 了 数学 上 的 函数 ) 更 富有 动态 的 行 





人 工 递 归 神 经 网 络 (recurrent neural network, RNN) 与 广泛 应 用 的 前 馈 神 经 网 络 的 区 别 
， 递 归 神 经 网 络 的 拓扑 结构 中 存在 循环 。 在 递归 神经 网 络 具 有 一 定 的 记忆 能 力 的 前 提 下 ， 



































它 的 输出 有 一 些 会 反馈 给 网 络 中 的 点 , 继而 影响 网 络 之 后 的 输出 。 依 不 同 的 模型 而 定 , 计算 可 








以 通过 同步 方式 〈 类 似 于 全 局 时 钟 使 每 个 神经 元 按时 收集 数据 ， 并 根据 当前 输入 生成 输出 )、 























异步 方式 〈 每 个 神经 元 被 随机 唤醒 并 更 新 输出 ) 或 者 数学 上 微分 方程 持续 动态 调控 的 方式 进 
行 。 图 14-1 展示 了 递归 神经 网 络 的 基本 结构 : 隐藏 层 神经 元 的 输出 可 以 作为 输入 反馈 到 其 他 
神经 元 ; 输出 结果 可 以 反馈 到 隐藏 层 神经 元 ， 进 而 影响 之 后 的 输出 。 其 中 后 一 个 结构 是 必要 
的 ， 如 果 神 经 网 络 的 后 续 输 出 与 当前 输出 有 着 强 相 关 性 ， 且 要 使 该 神经 网 络 可 以 递增 地 运行 
下 去 。 然 而 有 些 反馈 通道 可 能 不 会 实现 , 依 情况 而 定 。 

























































































图 14-1 递归 神经 网 络 基本 图 解 





现在 通过 一 个 实际 的 例子 来 理解 递归 神经 网 络 。 该 递归 神经 网 络 没有 输入 层 ， 有 4 个 激 





励 函 数 为 S 型 函数 的 隐藏 神经 元 和 2 个 激励 函数 为 线性 函数 的 输出 神经 元 。 它 沿 着 一 个 环形 











来 训练 参数 (中心 在 原点 , 半径 为 1, 每 16 步 转 一 圈 , 前 4 步 有 一 个 瞬 变 现象 )。 如 图 14-2 所 








14.1 


递归 神经 网 络 123 





AN» 在 训练 了 几 步 后 ， 这 个 系统 大 致 沿 着 一 个 环形 来 运行 ,其 4 个 隐藏 














图 14-3 所 示 。 
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神经 元 所 对 应 的 值 如 








图 14-2 递归 神经 网 络 沿 着 环形 训练 : 没有 初始 输入 的 情况 下 上 

















的 输出 序列 
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图 14-3 ”递归 神经 网 络 治 着 环形 训练 : 输出 和 隐藏 层 神经 元 〈 另 见 彩 插 ) 








递归 神经 网 络 里 的 环 状 结构 有 着 重要 的 作用 (最 近 的 一 篇 综述 见 
全 持 的 时 序 激 活 信号， 有 





























。 递归 神经 网 络 能 够 治 着 其 循环 连接 的 路 径 ， 动 态 地 形成 自 名 











没有 任何 输入 也 可 以 。 递 归 神 经 网 络 就 是 一 个 动力 系统 ， 它 的 前 馈 


函数 。 


参考 文献 [79] )。 





使 
网 络 就 是 其 演变 
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。 如果 存在 输入 信号 , 那么 递归 神经 网 络 将 历史 输入 通过 非 线 性 转换 后 保存 在 内 部 状态 
中 。 递归 神 经 网 络 具 有 动态 的 记忆 功能 , 可 以 处 理 时 序 的 内 容 。 

从 动力 系统 的 角度 来 看 ,， 弟 归 神 经 网 络 可 以 分 成 两 类 。 第 一 类 递归 神经 网 络 的 特点 是 能 
量 极 小 的 动态 随机 和 对 称 连接 (神经 网 络 的 输出 轨迹 在 某 一 合适 的 “能 量 ” 函 数 下 达到 其 局 
部 极 小 值 , 可 看 作 梯 度 下 降 的 一 个 变 体 ), 已 知 的 实例 有 从 统计 物理 学 中 衍生 出 来 的 霍 普 菲 尔 
德 网 络 (Hopfield network) 4, BRA SNL Pl 和 深度 信念 网 络 6 。 这 些 学 习 系统 的 训练 大 
多 是 无 监督 的 , 典型 应 用 于 联想 储存 器 (其 检索 的 内 容 对 应 能 量 函数 的 局 部 极 小 值 )、 数据 压 
缩 、 数 据 分 布 的 无 监督 建 模 和 静态 模式 分 类 领域 。 对 于 每 个 输入 实例 , 该 系统 会 运行 多 次 , 最 
终 达 到 某 种 收敛 或 平衡 的 状态 。 

第 二 类 递归 神经 网 络 的 特点 是 确定 型 动态 更 新 和 有 向 连接 。 应 用 该 类 网 络 可 实现 非 线性 
的 过 滤器 一 一 将 输入 的 时 间 序 列 转化 成 另 一 种 时 间 序 列 。 该 类 网 络 背 后 的 数学 原理 是 非 线性 
动力 系统 , 且 该 网 络 的 训练 是 监督 的 。 









































































































































14.2 能量 极 小 化 霍 普 菲尔德 网 络 


霍 普 菲尔德 网 络 〈 见 图 14-4) 参考 文献 [61] 定义 一 一 是 由 一 系列 二 值 阔 值 神经 元 
《 即 根据 输入 是 否 超过 阔 值 ,输出 1 或 者 -1) 构成 的 网 络 。 网 络 中 的 神经 元 通过 具有 对 称 权 
E wij 的 边 连接 (没有 自 连接 的 边 wi = 0)。 神 经 元 通过 下 述 方式 更 新 状态 : 


+1 5 WijSj > 6; 
Si 全 J 
一 1 其 他 情况 


其 中 , si 是 神经 元 i 的 输出 状态 , 9; 是 其 阔 值 。 神 经 元 的 状态 更 新 分 异步 〈 随 机 选取 一 个 神经 
元 并 更 新 ) 和 同步 (存在 一 个 中 心 时 钟 , 所 有 的 神经 元 在 同一 时 刻 更 新 ) 两 种 方式 。 异 步 更 新 
方式 更 符合 生物 学 和 物理 学 中 的 现象 (物理 学 中 的 自 旋 玻璃 态 就 是 一 种 相关 的 模型 )。 初 始 的 
输入 随 着 更 新 不 断 地 改变 ， 因 此 神经 元 的 状态 不 仅仅 依赖 于 初始 状态 ,还 依赖 于 之 前 一 系列 
的 更 新 过 程 。 如 果 神 经 元 的 输出 状态 用 LED 灯 表 示 ( 输 出 +1 发 光 , 输出 -1 不 发 光 ) 一 一 实 
际 上 本 书 的 作者 之 一 已 经 实现 了 这 样 的 硬件 一 一 我 们 可 以 观察 到 LED 灯 随 着 时 间 闪 烁 的 图 
Ro 现在 主要 的 问题 是 : 这 样 内 烁 的 图 案 可 能 有 着 怎样 的 意义 ? 哪些 计算 可 以 在 其 上 执行 ? 对 
于 霍 普 菲 尔 德 网 络 而 言 ， 这 些 问题 的 答案 与 优化 一 个 合适 的 能 量 函 数 有 关 [在 数学 和 物理 学 
Ht PK EAS ES A HSK (Lyapunov function) |: 


E= T3 pws + 人 


显然 ， 当 神经 元 被 选中 更 新 时 ， 由 于 连接 的 权重 是 对 称 的 ,能 量 函 数 五 的 值 总 是 减 小 或 不 变 
多 次 重复 更 新 后 , 霍 普 菲 尔 德 网 络 最 终 会 收敛 于 使 得 能 量 函 数 达到 局 部 极 小 值 的 状态 。 能 量 

























































































(14.1) 






















































































































































































函数 的 局 部 极 小 值 被 称 作 霍 普 菲 尔 德 网 络 的 稳定 状态 。 因 此 , LED 灯 的 内 烁 图 案 最 终 会 稳定 
下 来 并 显示 -个 不 变 的 图 案 , SEWARIC AES OTD, ERE” AAIR BET A 
始 输入 值 , 目标 是 在 初始 输入 值 的 吸引 域 中 寻找 一 个 局 部 极 小 值 ， 过 程 类 似 于 一 滴水 通过 流 
域 倪 地 流入 湖泊 里 。 实际 上 , 将 输出 值 限 制 在 一 定 范围 内 是 非常 必要 的 , 否则 求 能 量 函 数 的 
极 小 值 需要 最 小 化 二 次 型 , 而 二 次 型 的 最 小 值 有 可 能 是 无 限 的 ( 负 无 穷 )。 


: 

























































































































































































图 14-4 5 个 神经 元 和 反馈 循环 组 成 的 霍 普 菲尔德 网 络 


编程 实现 霍 普 菲尔德 网 络 实际 上 就 是 刻画 其 能 级 相 图 (energy landscape) 中 合适 的 局 部 
极 小 值 。Donald Hebb 在 1949 年 为 解释 “联想 学 习 ” 而 提出 了 Hebbian 学 习 算 法 , 它 在 训练 
霍 普 菲 尔 德 网 络 时 修改 边 的 权重 。 在 生物 学 中 ,神经 元 的 同时 激发 现象 会 导致 这 些 神 经 元 之 
间 的 突 触 强度 明显 增加 :“ 神 经 元 同时 发 出 信息 , 同时 传递 信息 。 如 果 神 经 元 不 能 同步 发 出 信 
息 , 那么 一 定 是 它们 之 间 没 有 链接 。”Hebbian 算法 是 局 部 的 和 递增 的 。 对 于 霍 普 菲尔德 网 络 
来 说 ,如 果 要 学 习 N 个 二 值 模式 , 该 算法 可 以 通过 如 下 方法 实现 : 


















































































































































其 中 , 每 个 模式 z = (zf,… ach) 都 是 一 个 长 n 位 的 序列 , ”同时 也 是 霍 普 菲尔德 网 络 中 的 
神经 元 数 。 在 一 个 模式 zr 中 如 果 对 应 神经 元 i 和 j 的 位 数 是 相等 的 , 那么 ttt 的 乘积 将 为 
正 ， 即 会 使 权重 wy 增加 ， 所 以 神经 元 i 和 j 的 值 一 定 是 趋向 相等 的 ， 若 神经 元 i 和 了 ME 
\ 等 , 则 反之 。 

依 霍 普 菲 尔 德 网 络 中 神经 元 的 数量 而 定 ，Hebbian 算法 能 够 在 其 能 级 相 图 中 刻画 出 一 系 
列 局 部 极 小 值 ， 前 提 是 N 不 是 很 大 (一 个 经 验 法 则 是 , 模式 的 数量 N 不 超过 神经 元 的 数量 
n 的 13.8%), 这 些 极 小 值 可 以 很 接近 训练 的 NN 个 模式 。 当 更 新 规则 [ 式 (14.1)] 基于 一 个 
给 定 的 模式 a” 反复 迭代 时 ,该 霍 普 菲尔德 网 络 将 会 稳定 在 一 个 局 部 极 小 值 上 , 因此, 检索 到 
的 存储 起 来 的 模式 与 z” 最 接近 ,如 图 14-5 所 示 。 
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! 最 终 (存储 的 ) 
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确认 
< > 
最 终 模 式 的 吸引 域 


图 14-5 ” 霍 普 菲尔德 网 络 的 能 级 相 图 , 标 出 了 其 初始 状态 (曲线 的 上 端 ), 最 终 收 敛 的 吸引 状态 
和 一 个 吸引 域 (阴影 部 分 ) 


基于 霍 普 菲尔德 网 络 可 以 建立 内 容 可 寻 址 存储 系统 : 只 需 提 供 模式 内 容 的 一 部 分 〈 
位 随机 设置 ), 该 网 络 就 可 以 收敛 于 一 个 “记忆 存储 的 ”状态 。 这样 的 网 络 可 以 用 来 恢复 失 
的 输入 : 在 已 训练 的 状态 中 找 出 与 该 输入 最 相似 的 状态 。 这 也 被 称 作 联想 存储 器 , 类 似 于 弓 
人 码 。 霍 普 菲 尔 德 网 络 连 续 权 重 的 泛 化 方法 与 梯度 下 降 类 似 ， 不 过 是 沿 着 梯度 的 方向 下 降 ( 
能 量 函数 的 值 仍 在 下 降 )。 

尽管 霍 普 菲尔德 网 络 具有 重大 的 理论 价值 和 研究 意义 ,但 在 现实 世界 的 应 用 中 仍 面 临 一 
些 挑战 ， 比 如 伪 模 式 (spurious pattern) 一 一 收敛 的 局 部 极 小 值 不 对 应 训练 的 存储 值 一 一 以 及 
网 络 的 容量 限制 。 当 霍 普 菲 尔 德 网 络 存储 了 很 多 模式 后 ,已 存储 的 单元 有 可 能 与 其 他 邻近 的 
检索 相 混 请 。 显 然 , 人 类 的 记忆 也 有 具有 相似 的 特性 , 语义 上 有 关联 的 词语 容易 弄 混 , 从 而 导致 
记忆 存在 误差 。 
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14.3 ”递归 神经 网 络 和 时 序 反 向 传播 


现在 来 考虑 更 一 般 的 递归 神经 网 络 一 一 不 要 求 对 称 的 权重 和 二 值 输出 〈 见 图 14-1)。 

这 类 递归 神经 网 络 可 以 展开 为 如 图 14-6 所 示 的 前 馈 网 络 ， 与 标准 的 前 馈 神 经 网 络 的 唯 
一 区 别 在 于 ， 它 允许 输入 神经 元 跳 过 隐藏 层 ， 直接 连接 输出 神经 元 。 训 练 这 类 递归 神经 网 络 
的 标准 算法 是 “时 序 反 向 传播 ”(backpropagation through time, BPTT), 主要 思想 是 将 前 馈 
神经 网 络 标准 的 反 向 传播 应 用 于 上 述 的 展开 模型 tl3 。 如 果 递 归 神 经 网 络 中 一 些 神 经 元 的 输 
出 可 以 反馈 给 其 他 神经 元 ,那么 由 于 梯度 消失 和 爆炸 问题 Pa ， 它 基于 导数 的 训练 方式 会 变 得 
上 分 困难 。 梯 度 爆炸 (exploding gradient) 是 指 在 训练 递归 神经 网 络 时 ,由 于 模式 的 长 时 间 依 
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赖 ， 导 致 梯度 远 超 其 正常 值 ， 甚 至 能 达到 短 时间 依 赖 时 的 几何 指数 倍 。 梯 度 消 失 〈vanishing 
gradient) 恰恰 相反 , 当 长 时 间 依 赖 的 模式 梯度 呈 几 何 指数 式 趋 近 0 时 , 学 习 长 时 间 相 关 的 事 
件 就 变 得 不 可 能 了 。 这 个 问题 是 由 递归 神经 网 络 中 神经 元 的 迭代 次 数 过 多 导致 的 ， 因为 这 会 
导致 网 络 中 一 个 很 小 的 权重 呈 几 何 指数 式 增加 或 减 小 。 参考 文 献 [85] 利用 修改 的 时 序 反 向 传 
播 算法 , 解决 了 上 述 问 题 (梯度 基准 前 切 方法 解决 梯度 爆炸 , 软 约 束 解决 梯度 消失 )。 
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图 14-6 图 14-1 中 的 递归 神经 网 络 可 以 被 瀑布 状 地 展开 成 一 个 前 馈 网 络 , 它 的 每 一 个 前 馈 都 是 
当前 迭代 的 输入 和 先前 迭代 的 输入 -输出 组 成 


某 种 程度 上 , 递归 神经 网 络 凸 显 了 基于 导数 的 优化 方法 的 缺陷 ,推进 了 无 导数 方法 的 发 
展 和 训练 体系 的 彻底 改变 , 例如 下 面 将 要 介绍 的 储备 池 学 习 方法 和 极限 学 习 机 方法 。 






























































14.4 ”递归 神经 网 络 储备 池 学 习 


递归 神经 网 络 ( 我 们 讨论 的 第 二 类 ， 即 没有 对 称 权 重 的 限制 ) 是 一 个 非常 有 前 景 的 针对 
非 线性 时 序 应 用 的 工具 M, 它 用 一 些 容易 接受 和 普遍 的 假设 将 生物 学 理论 (大 脑 中 存在 递归 
连接 的 神经 元 ) 与 动力 系统 相 统一 。 
以 往 提 出 的 很 多 训练 方法 都 存在 下 述 缺 点 。 
。 在 学 习 时 不 断 改 变 神经 网 络 的 参数 会 导致 网 络 动态 分 岔 (bifurcation): 梯度 信息 退化 ， 
可 能 变 得 模糊 不 清 ， 从 而 不 能 保证 最 终 的 收敛 。 
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许多 花 销 巨大 的 循环 更 新 或 许 是 有 必要 的 , 但 会 导致 大 型 网 络 (超过 10 个 神经 元 ) 
训练 时 间 过 长 。 

。 长 期 记忆 的 学 习 是 困难 的 ,因为 所 需 计 算 的 梯度 信息 随 着 时 间 呈 几何 指数 式 增加 。 

高 级 训练 算法 中 的 全 局 控制 参数 十 分 复杂 , 调 参 需 要 大 量 的 技巧 和 先 验 知识 。 

21 世纪 初 ,一 种 全 新 的 方法 分 别 以 流体 状态 机 [eol 和 回声 状态 网 络 [67] 的 面貌 独立 提 
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这 里 统一 将 其 称 作 储 备 池 计算 。 储 备 池 计算 通过 以 下 规则 〈 见 图 14-7) 可 以 克服 递归 神经 网 








络 梯度 下 降 算法 的 缺陷 。 
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图 14-7 CERD 递归 神经 网 络 传统 的 基于 导数 梯度 的 训练 方法 需 调 整 所 有 的 连接 参数 〈 粗 箭 
K), 而 ( 右 图 ) 储备 池 计 算 只 需 修改 连接 递归 神经 网 络 和 输出 之 间 的 连接 参数 即 可 《〈 改 
编 自 参考 文献 [79] ) 























。 如果 一 个 随机 生成 的 递归 神经 网 络 在 训练 时 不 改变 其 参数 , 那么 这 个 递归 神经 网 络 就 
称 作 储备 池 ， 它 总 是 维持 自身 的 状态 不 变 ， 只 被 动 地 接受 输入 信和 号 的 刺激 ， 将 历史 输 











入 非 线性 地 转化 成 输出 。 
。 最终 期 望 得 到 的 输出 信号 , 由 被 刺激 的 储备 池 中 所 有 的 神经 元 输出 信号 线性 组 合 而 
这 里 的 线性 组 合 可 以 通过 线性 拟 合 得 到 , 例如 最 小 二 乘法 。 
储备 池 计 算 很 快 就 成 为 递归 神经 网 络 建 模 的 基本 工具 之 一 , 它 表 现 出 更 高 的 建 模 准 确 

















































































































成 ， 


率 
2 


旦 对 于 连续 时 间 和 连续 值 的 实时 系统 具有 通用 的 建 模 容 量 。 储 备 池 计算 也 可 以 解释 “为 什么 


尽管 存在 有 了 嗣 声 的 物理 部 分 , 但 大 脑 仍 可 以 进行 精确 的 计算 ”。 最 后 , 一 些 递 归 神 经 网 络 可 以 






































通过 向 同一 个 储备 池 里 添加 更 多 的 输出 神经 元 来 扩充 ， 需 干涉 之 前 模型 的 设计 功能 。 











在 一 些 实例 中 , 一 个 完全 随机 的 储备 池 无 法 满足 需求 ， 因 此 现在 的 研究 正 向 合适 的 储备 




















池 的 生成 和 适应 方法 发 展 。 储 备 池 计 算 从 蛮 力 随机 方法 出 发 , 继而 成 为 了 一 些 不 同方 法 的 范 
例 : (i) 生成 或 调整 储备 池 ; (i) 训练 储备 池 不 同类 型 的 读 出 。 参 考 文献 [79] 是 最 新 的 一 篇 关 














于 储备 池 计 算 综述 。 





14.5 ” 超 限 学 习 机 


还 有 一 系列 与 储备 池 计 算 相 关 的 关于 前 馈 系 统 的 研究 ， 比 如 在 多 层 感知 机 中 ， 随 机 初始 























化 各 层 参数 , 并 只 对 最 后 一 层 进行 线性 回归 训练 。 参考 文献 [64] 中 提出 了 超 限 学 习 机 的 概念 
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利用 标准 广义 逆 的 方法 计算 最 小 二 乘 拟 合 〈 在 4.1 节 中 )。 超 限 学 习 机 和 储备 池 计 算 都 采 上 











Hf 





14.5 超 


限 学 习 机 129 


























问题 , 例如 收敛 到 局 部 极 小 值 、 梯度 消失 或 爆炸 。 
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它们 主 














单 却 有 效 的 线性 回归 算法 , 仅 通过 修改 输出 权重 ， 就 能 解决 传统 神经 网 络 训练 算法 中 的 许多 
要 的 区 别 是 , 储备 池 计 算 的 结构 包含 








递归 连接 ， 从 而 实现 短 时 记忆 , 而 超 限 学 习 机 使 用 纯粹 的 前 向 结构 ,也 没有 短 时 记忆 。 
实际 上 , 在 神经 网 络 研究 的 萌芽 阶段 ， 人 们 就 发 现 了 类 似 于 超 限 学 习 机 的 方法 ， 即 使 随 
机 初始 化 神经 网 络 各 层 参数 ， 也 能 得 到 不 错 的 学 习 结 果 。 例如 ，Rosenblatt 8 和 其 他 研究 者 



























































机 生成 输入 层 参 数 和 隐藏 层 偏差 , 那么 由 矩阵 的 逆 可 知 ， 
本 , 也 就 是 说 这 些 样本 的 矩阵 是 满 秩 的 (线性 无 关 的 )。 当 然 , 该 方法 不 能 保 记 
但 可 以 使 得 单 层 前 馈 网 络 的 学 习 只 需要 矩阵 求 逆 这 一 简 

参考 文献 [65] 中 所 做 的 工作 严格 证 明了 一 点 : 如 果 隐 藏 层 的 激活 函数 是 无 限 可 微 的 , 那 













































































偏爱 随机 选择 输入 特征 探测 器 。E. Baum Po 主张 在 模拟 神经 网 络 时 , 固定 那些 同一 层 中 的 连 
接 参 数 ， 只 调整 那些 连接 不 同 层 的 参数 。 直 到 最 近 , 参考 文献 [65] 才 提 出 了 上 述 方法 一 般 的 
理论 和 实践 研究 ,并 将 其 命名 为 “ 超 限 学 习 机 ” (Extreme Learning Machine, ELM). 
在 线性 代数 中 , 众所周知， 如果 一 个 单 层 前 馈 网 络 (SLFN) 具有 N 个 隐 








藏 神经 元 , 并 随 























它 恰 好 可 以 学 习 ON 个 不 同 的 观测 样 














单 且 一 次 性 的 操作 。 


























F 泛 化 的 正确 性 ， 


么 单 层 前 馈 网 络 的 输入 层 参 数 和 隐藏 层 偏 差 可 以 随机 指定 。 当 这 些 值 被 随机 选 定 后 , 单 层 前 
馈 网 络 可 以 被 看 作 一 个 线性 系统 ， 其 输出 层 参 数 可 以 通过 对 隐藏 层 和 输入 矩阵 进行 简单 的 广义 
种 类 隐藏 层 神经 元 和 隐藏 层 结构 的 泛 化 方法 
( 见 图 14-8)。 某 些 情 况 下 , 超 限 学 习 机 比 传统 的 学 习 算法 (比如 反 向 传播 算法 ) 更 快 , 得 到 的 














逆 操 作 得 到 。 目前 已 经 有 了 各 式 各 样 的 基于 不 同 


















































泛 化 结果 也 更 好 , 尤其 在 网 络 中 权重 的 范 数 被 通常 的 二 次 罚 分 限制 的 情况 下 
































。 为 了 得 到 最 优 








的 性 能 ， 超 限 学习 机 隐藏 层 的 神经 元 数 可 以 比 反 向 传播 算法 多 得 多 ， 这 表明 为 了 挖掘 出 足够 











多 有 效 的 神经 元 以 确定 输出 ， 需 要 生产 大 量 的 随机 神经 元 。 参 考 文献 [63 














综述 。 














图 14-8 超 限 学 习 机 的 隐藏 层 可 以 包含 不 同 种 类 的 可 计算 节点 《改编 自 


























隐藏 神经 元 不 必 基 于 代数 





或 其 





























h,( x) = Gi( a;b, £) 


d 个 输入 节点 





是 最 近 的 一 篇 相关 


和 ) 


或 其 他 ELM 特 性 映射 。 不 同类 型 的 
输出 函数 可 用 于 不 同 的 神经 元 : 








参考 文献 [63]) 
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参考 文献 [68] 中 的 相关 研究 评估 了 物体 识别 的 多 阶段 结构 ， 并 考虑 了 随机 过 滤器 。 参 考 
文献 [114] 中 提出 了 非 传 播 (no-prop) 的 神经 网 络 算法 (类 似 于 超 限 学 习 机 , 但 采用 友 代 的 最 
小 二 乘 技术 )。 参 考 文献 [94] 中 研究 了 随机 参数 的 结构 ， 并 发 现 了 一 个 确定 的 卷 积 池 化 结构 
(在 图 像 处 理 中 , 空间 上 不 同位 置 的 神经 元 共享 连接 的 参数 ) 具有 固定 的 选择 频率 和 不 变 的 转 
化 效果 ,即使 它 的 参数 是 随机 的 。 基 于 这 个 发 现 , 他们 提出 了 使 用 随机 参数 评估 候选 网 络 结 
构 ， 从 而 避免 学 习 过 程 中 过 于 耗 时 的 方法 。 最 新 的 神经 网 络 算法 中 ， 网 络 的 结构 对 提升 算法 
性 能 的 作用 令 人 惊讶 , 尽管 接 下 来 的 参数 微调 也 的 确 能 提升 最 终 的 算法 性 能 。 

显然 , 储备 池 计 算 和 超 限 学 习 机 都 是 沿 着 同一 个 研究 方向 进行 的 , 虽然 原始 的 储备 池 计 
算 大 多 关注 递归 神经 网 络 ,而 超 限 学 习 机 关注 前 馈 系统 。 参考 文 献 [32] 同时 研究 了 储备 池 计 
算 和 超 限 学 习 机 。 
























































































































































E M 


市 有 反馈 回路 的 递归 神经 网 络 ,， 可 以 使 得 “数学 函数 ”( 前 馈 网 络 ) 过 渡 到 随时 间 进 化 
并 带 有 内 部 存储 器 的 全 面 动力 系统 。 

递归 神经 网 络 的 机 器 学 习 是 很 难 的 ， 尤 其 是 基于 导数 的 方法 。 它 所 涉及 的 循环 很 多 ， 
可 能 会 导致 梯度 爆炸 或 者 消失 。 

最 近 提 出 的 储备 池 计 算 CRC) 和 超 限 学 习 机 (ELM) 都 采用 一 种 激进 的 方法 : 与 深度 
学 习 相反 , 它们 生成 大 量 的 随机 构造 块 (随机 特征 ), 并 将 模型 的 学 习 限 制 在 一 个 最 终 的 线 
性 组 合 层 中 。 具 体 来 说 , 就 是 从 储备 池 中 挖 气 有 用 的 构造 块 ， 并 将 其 适当 组 合 起 来 , 得 到 
最 终 的 学 习 结果 。 

鉴于 生物 神经 元 中 的 噪声 影响 , 深度 学 习 的 导数 方法 难以 实现 “随机 构建 辅 以 最 终 调 
参 ” 的 亦 力 法 的 成 功 给 予 了 我 们 解释 大 脑 部 件 如 何 运行 的 希望 , 并 使 我 们 能 够 设计 出 更 快 
且 更 灵活 的 机 器 学 习 算法 。 

我 们 很 高 兴 生 活 在 这 样 一 个 研究 成 果 进 发 的 时 期 ,各 式 各 样 疯狂 的 想法 通过 令 人 惊奇 
的 情节 转折 和 范式 变化 ,推进 机 器 学 习 和 神经 网 络 的 前 治 发 展 。 
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起 初 ， 神 创造 天 地 。 地 是 空虚 混沌 ， 渊 面 黑暗 ， 神 的 灵 运 行 
在 水 上 面 。 神 说 “要 有 光 ”， 于 是 就 有 了 光 。 和 神 看 光 是 好 的 ， 就 
EXEDRA T. WHAE, MEIR. 

IPIE) E AMERA FF AAE AB Ho SP SAE EB ARA E) AB 
人 面前 ， 看 他 叫 什 么 。 那 人 怎样 叫 各 样 的 活 物 ， 那 就 是 它 的 名 
字 。 那 人 便 给 一 切 牲 席 和 空中 飞鸟 、 野 地 走 普 都 起 了 名 。 


一 一 《创世纪 》 





本 章 将 开局 一 个 新 部 分 ,也 会 进入 一 个 新 领域 。 到 现在 为 止 , 我 们 考虑 了 监督 学 习 方法 ， 
而 这 一 部 分 的 问题 是 : 在 没有 老师 和 标记 的 情况 下 , 我 们 可 以 学 到 什么 ? 

像 上 面 米 开朗 基 罗 的 那 幅 画 中 发 出 的 能 量 那 样 , 我 们 正 进入 一 个 更 具 创 造 性 的 领域 ， 
中 包含 关于 探索 、 发 现 、 意 想不到 的 结果 等 概念 。 现 在 的 任务 不 是 亦 步 亦 趋 地 跟着 老师 , 而 是 
自由 地 生成 模型 。 很 多 情况 下 ， 自 由 不 一 定 是 人 们 所 希望 的 , 但 它 是 继续 前 进 的 唯一 途径 。 

想象 一 个 孩子 坐 在 电视 机 前 。 即 使 没有 老师 ， 他 也 会 马上 意识 到 好 的 电视 机 屏幕 与 坏 了 
的 屏幕 之 间 的 区 别 ， 因 为 坏 了 的 屏幕 会 出 现 “ 雪 人 花 ” 般 的 随机 噪声 模式 ， 而 不 是 卡通 片 或 国 
际 新 闻 这 些 电 视 节 目 。 更 有 可 能 的 是 , 卡通 片 会 使 他 更 加 兴奋 ， 而 不 是 国际 新 闻 或 随机 噪声 。 
正在 工作 的 电视 屏幕 的 画面 (和 世界 的 表面 现象 ) 并 不 是 随机 的 ,而 是 高 度 结构 化 的 , 根据 某 
种 显 式 或 隐 式 的 计划 来 安排 。 关 于 无 监督 学 习 的 另 一 个 例子 , 假设 实体 代表 说 不 同 语言 的 人 ， 
坐标 与 他 们 的 口语 音频 测量 值 ^ 如 频率 、 振 幅 等 ) 相关 。 在 一 个 国际 机 场 里 , 根据 不 同 语言 的 





























I 






























































































































































第 15 章 自 顶 向 下 的 聚 类 : K YA 133 














发 声 特点 ， 大 多 数 人 可 以 很 容易 地 识别 出 说 不 同 语言 的 人 群 。 例 如, 我们 可 以 很 容易 地 区 分 
说 意大利 语 和 说 英语 的 人 , 即使 并 不 知道 具体 是 哪 种 语言 。 

对 结构 (形式 、 模 式 、 有 趣事 件 的 集合 ) 的 建 模 和 理解 ， 是 我 们 认 知 能 力 的 基础 。 名 称 
和 语言 的 使 用 深 深 植 根 于 大 脑 的 组 织 能 力 。 从 本 质 上 讲 ,， 名 称 是 将 不 同 经 验 组 合 起 来 的 方式 ， 
使 我 们 能 够 说 话 和 推理 。 苏 格拉 底 是 人 ， 人 溺 有 一 死 ,， 因 此 苏 格 拉 底 也 会 死 ”。 

举例 来 说 , 被 引入 到 共同 特征 推理 的 是 动物 的 种 类 (以 及 相应 的 名 称 ), 而 不 是 个 别 动物 
(“ 那 人 便 给 一 切 牲畜 都 起 了 名 ”)。 在 地 理学 中 , 大 洲 、 国 家 、 区域、 城市 、 社 区 代表 不 同 标 度 
的 地 理 实体 的 类 别 。 肾 类 是 非常 人 性 化 的 活动 ， 将 相似 的 东西 放 在 一 起 ,进行 抽象 并 且 为 对 
象 类 命名 ( 见 图 15-1)。 想 想 把 世界 上 的 男人 和 女人 分 类 ,尽管 个 体 之 间 差 异 显著 , 我 们 却 对 


此 相当 有 把 握 。 


























































































































图 15-1 ， 聚 类 深 深 地 根植 于 分 组 和 为 对 象 命名 的 人 类 活动 中 











E 服 世界 所 付出 的 代价 。Rainer Maria 














O 说 实话 ， 命 名 这 种 高 度 简化 的 方式 让 世界 失去 了 神秘 感 ， 这 就 是 用 技术 和 
Rilke 在 他 的 诗 《 我 的 庆典 》(1909) 中 表达 了 这 种 观点 。 
我 是 如 此 害怕 人 类 的 语言 ， 
它 能 如 此 准确 地 描述 万 物 : 
已 称 之 为 狗 ， 它 称 之 为 房子 ， 
让 这 开始 ,在 那 结束 ， 







































































我 想 警 告 它 : 让 任何 事物 如 它们 原本 的 样子 ! 
我 享受 聆听 它们 发 出 的 声音 。 

晶 你 总 是 干预 它们 : 它们 变 得 安静 和 静止 。 
这 就 是 你 怎么 扼杀 它们 的 。 
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聚 类 必须 处 理 信 息 的 压缩 。 当 数据 量 超过 人 们 的 消化 能 力 时 ， 就 会 发 生 认 知 过 载 ， 我 们 


























大 脑 中 有 限 的 “工作 记忆 ”也 不 足以 应 付 这 项 工作 。 实 际 上 ， 为 了 减少 用 于 分 析 的 数据 点 数 


























量 ， 可 以 使 用 过 滤器 来 限制 数据 值 范围 。 但 这 并 不 一 定 是 最 好 的 选择 ， 因 为 这 种 情况 下 是 在 









































各 个 坐标 上 筛选 数据 ,然而 更 加 全 局 的 图 景 或 许 才 是 人 们 希望 看 到 的 。 
聚 类 方法 以 智能 和 数据 驱动 的 方式 收集 类 似 的 点 并 放 在 一 起 , 因此 人 们 的 注意 力 可 以 集 



































中 于 一 个 相对 小 但 相关 的 原型 集合 。 原 型 概括 了 自身 所 代表 的 实例 子 集中 的 信息 。 当 类 似 的 














实例 被 组 合 在 一 起 时 ， 人 们 可 以 对 这 些 分 组 而 非 个 别 实体 进行 推理 ， 因 此 减少 了 不 同 的 可 能 


性 的 数目 。 





可 以 想象 , 聚 类 的 实际 应 用 是 没有 止境 的 。 举 一 些 例子 , 在 市 场 细 分 中 ,人们 将 广阔 的 目 
标 市 场 划分 为 有 共同 需求 的 客户 子 集 ， 然 后 执行 针对 每 一 类 客户 的 共同 需求 和 期 望 的 策略 。 
在 金融 领域 , 聚 类 将 有 类 似 行为 的 一 批 股票 分 在 一 组 , 可 以 提升 投资 的 多 样 性 并 降低 风险 。 在 
医疗 保健 中 ， 可 以 将 疾病 按 其 症状 进行 聚 类 。 在 文本 挖掘 中 ,根据 所 分 析 的 文本 的 结构 和 含 
义 , 将 单词 分 组 。 语 义 网 络 可 以 表示 概念 乙 间 的 语义 关系 。 它 是 一 个 有 问 或 者 无 向 图 , 包含 代 





















































表 概 念 的 项 点 和 边 。 由 于 存在 不 同 的 关系 (例如 
一 的 方法 来 对 实体 进行 分 组 。 

















15.1 无 监督 学 习 的 方法 
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Æ A” EE”, ESE), 也 就 不 存在 统 









































鉴于 聚 类 方式 的 创造 力 以 及 分 类 对 象 的 不 同 ， 聚 类 的 方法 也 千差万别 。 传 统 上 将 这 些 方 











法 分 为 自 顶 癌 下 和 上 自 底 向 上 两 种 。 





























在 自 顶 向 下 或 分 裂 聚 类 中 ,首先 确 定 都 有 哪些 类 ， 再 将 不 同 的 实例 分 类 ， 目 标 是 把 类 似 














的 实例 分 在 一 起 。 注意 , 这 些 类 别 没有 标签 , 只 存在 如 何 细 分 的 问题 , 试想 在 固定 数量 的 抽 居 


柜子 中 如 何 摆 放 衣服 。 如 果 你 是 一 个 成 年 人 (如 果 你 是 一 个 欢乐 的 少年 , 请 询问 你 的 父母 )， 












































你 最 后 可 能 会 把 福子 与 怀 子 放 在 一 起 , 衬衫 与 讨 衫 放 在 一 起 。 














在 自 底 向 上 或 凝聚 聚 类 中 , 数据 分 类 是 自然 形成 的 , 人 们 可 以 直接 开始 合并 (关联) 最 相 

















似 的 条 目 。 一 旦 创建 了 较 大 的 条 目 分 组 , 我 们 就 合 3 























最 相似 的 组 , 以 此 类 推 。 攻 分 组 是 有 意义 

















的 , 束 停 止 该 过 程 ， 当然 这 取决 于 具体 的 度量 、 应 用 领域 和 用 户 的 判定 。 最终 的 结果 是 越 来 越 
大 的 集合 构成 的 层次 组 织 ( 称 为 树 状 图 ), 体现 了 逐渐 变 大 的 合并 。 树 状 图 在 自然 科学 中 是 常 





见 的 结构 , 想 想 动物 学 或 植物 学 物种 的 组 织 层级 关系 。 
有 一 种 更 先进 和 灵活 的 无 监督 策略 ， 称 为 维 数 降 低 : 为 了 减少 描述 一 组 试验 数据 的 坐标 


















































数 ， 需 要 理解 结构 和 不 同 实例 “变化 的 方向 ”。 如 果 对 人 的 面部 聚 类 , 变化 的 方向 可 以 和 眼睛 
颜色 、 人 中 长 短 、 自 子 和 眼睛 之 间 的 距离 等 参数 相关 。 所 有 类 型 的 面部 可 通过 改变 几 十 种 参 

















数 来 获得 ,而 这 肯定 比 一 张 图 像 中 的 像素 总 数 要 少 得 多 。 





另 一 种 为 一 组 实例 建 模 的 方法 是 ,假设 它们 


日 


























Fe 








一 个 相关 的 概率 过 程 产生 的 ， 那么 对 过 














程 建 模 就 是 理解 结构 和 不 同类 别 的 一 种 方式 。 生 成 模型 的 目的 是 确定 产生 观察 实例 的 过 程 的 
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概率 分 布 并 建 模 。 想 想 通 过 对 不 同 作者 使 用 的 主题 和 字 词 建 模 来 对 图 书 进行 分 组 (事先 不 知 
道 作 者 姓名 )。 一 个 作者 有 一 定 的 概率 会 选择 某 个 主题 。 主题 确定 之 后 , 与 主题 相关 的 字 词 将 
以 特定 的 概率 产生 。 当然, 这 样 是 不 会 产生 杰作 的 , 但 会 产生 类 似 的 字 词 出 现 的 最 终 概 率 , 很 
多 情况 下 足以 识别 出 一 个 未 知 的 作者 。 

我 们 的 视觉 系统 对 图 像 的 显著 部 分 进行 聚 类 的 功能 是 极其 强大 的 。 可 视 化 ,例如 线性 或 
非 线 性 投影 到 低 维 空间 (通常 具有 两 个 维度 ), 可 能 对 “手动 ”一 一 好 吧 , 其 实 是 “ 眼 动 ”一 一 确 
认 结 构 和 聚 类 是 很 有 效 的 。 

最 后 , 兼 具 趣 味 性 和 挑战 性 的 应 用 需要 将 有 监督 和 无 监督 策略 〈 半 监督 学 习 ) 相 结 合 。 想 
想 一 个 “大 数据 ”的 应 用 : 将 不 计 其 数 的 网 页 聚 类 。 标 记 可 能 非常 昂贵 〈 因 为 可 能 需要 人 工 为 
页 面 分 类 ), 因此 非常 少见 。 将 一 组 大 量 的 未 标记 网 页 加 入 稀 玻 标记 的 网 页 集合 中 , 可 大 大 提 
高 最 终结 果 的 准确 率 。 

对 这 部 分 内 容 做 了 整体 介绍 之 后 , 本 章 将 侧重 于 一 种 应 用 广泛 且 有 效 的 自 项 向 下 的 方法 ， 
称 为 K 均值 聚 类 。 
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15.2 BA: 表示 与 度量 


聚 类 中 存在 两 种 不 同 的 情景 , 这 取决 于 要 进行 聚 类 的 实体 是 如 何 组 织 的 〈 见 图 15-2)。 某 
些 情况 下 可 根据 每 个 实体 的 内 部 表示 (对 于 实体 d 通常 是 一 个 M 维 向 量 za) 推导 出 实体 间 
的 相 异 性 或 相似 性 。 这 种 情况 下 可 以 为 每 一 个 类 推导 出 原型 (或 中 心 ), 例如 通过 计算 所 包含 
的 实体 (向量 ) 特性 的 平均 值 。 其 他 情况 下 ,可 用 的 只 有 一 个 相 异 性 的 外 部 表示 ,所 得 模型 是 
由 边 连 接 实体 的 无 癌 加 权 图 。 
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图 15-2 ”基于 关系 的 外 部 表示 〈 左 图 ) 和 基于 坐标 的 内 部 表示 《〈 右 图 )， 分 别 表示 一 对 数据 点 间 
的 相似 度 和 每 个 独立 数据 点 对 应 的 向 量 























例如 , 假设 有 市 场 调 查 表明 , 超市 会 在 邻近 的 货架 上 摆 放 相似 的 食物 , 因为 这 样 可 以 带 来 
更 多 的 僵 利 。 特定 食品 的 内 部 表示 可 以 用 数字 向 量 来 描述 : 食物 类 型 (1= 肉 , 2= 鱼 ……… Js 
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卡路里 含量 、 颜 色 、 包装 大 小 , 以 及 建议 食用 日 期 等 。 相 似 性 则 可 以 通过 欧 氏 度量 或 比较 对 应 
向 量 的 标量 积 来 得 出 。 

通过 询问 顾客 可 以 得 到 外 部 表示 ， 让 他 们 对 商品 X 和 YY 的 相似 性 进行 评级 (要 有 固定 
的 分 值 范围 , 例如 0~10)， 然 后 对 顾客 的 投票 求 平 均 ， 导 出 外 部 相似 性 。 

聚 类 方法 的 有 效 性 依赖 于 相似 性 度量 (如何 衡量 相似 性 ), 而 相似 性 度量 与 需要 解决 的 问 
题 相 关 。 传 统 的 欧 几 里 得 度量 在 某 些 情况 下 适用 ,这 需要 不 同 的 坐标 上 的 测量 单位 相近 ， 且 
有 一 个 可 参考 的 显著 性 水 平 ; 如 果 使 用 不 同 的 测量 单位 , 欧 几 里 得 度量 就 不 适用 了 。 例 如 , 如 
果 一 名 警察 在 识别 面部 时 ， 以 毫米 为 单位 来 测量 眼 距 ， 而 以 千 米 为 单位 来 测量 人 中 距离 ， 那 
oases er cast: 同样 ， 如 果 房 地 产 市 场 有 房屋 的 颜色 数据 ,在 根据 商业 目的 对 房 
屋 进行 聚 类 时 , 颜色 不 会 很 重要 。 但 是 , 将 不 同 艺术 家 画 的 房屋 进行 聚 类 时 , 颜色 就 变 得 非常 
EH, 度量 确实 是 针对 特定 问题 页 的 ， 这 就 是 我 们 把 实体 zx 和 y 之 间 的 差异 写成 i(z,y) 的 原 
A, 留待 以 后 确定 如 何 具体 计算 它 的 。 

如 果 存 在 一 个 内 部 表示 , 可 以 由 通常 的 欧 几 里 得 距离 导出 度量 : 
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dn(a,y) = lz — yl| = di — yi)? (15.1) 














在 三 维 空间 中 , 这 是 传统 的 距离 , 通过 先 将 边 取 平方 然后 求 平方 根来 测量 。 符号 ||zll> X 
WAE a 的 欧 儿 里 得 范 数 ,而 下 标 2 通常 被 删 去 。 

男 一 个 值得 注意 的 度量 是 曼哈顿 距离 或 出 租车 范 数 , 之 所 以 这 么 称呼 , 是 因为 它 测量 一 
辆 出 租车 在 一 个 长 方形 的 街道 网 格 中 从 原点 到 x 点 的 距离 : 










































































M 
damm(T,Yy) = lla — ylli = ` [zi — yi (15.2) 








像 往常 一 样 , 没有 绝对 正确 的 范 数 , 也 没有 绝对 错误 的 范 数 : 对 于 每 个 问题 , 范 数 必须 适 
当地 反映 距离 度量 。 在 纽约 的 出 租车 喜欢 曼哈顿 范 数 ， 飞 行 员 则 更 喜欢 欧 几 里 得 范 数 ( 至 少 
短 距离 是 这 样 ， 而 由 于 地 球 的 曲率 , 仍然 需要 基于 测 地 学 的 不 同 距 离 度量 )。 在 某 些 情况 下 ， 
只 有 评价 了 聚 类 结果 之 后 才能 认识 到 什么 是 测量 距离 的 适当 方法 , 这 也 是 工作 中 创造 性 和 开 
放 性 的 来 源 。 

还 有 一 种 可 能 性 是 ， 从 两 个 归 一 化 向 量 的 标量 积 给 出 的 相似 性 出 发 , 然后 取 逆 以 获得 相 
异性。 具体 来 说 , 向量 zx 和 y 之 间 的 归 一 化 点 积 , 类 比 三 维和 三 维 的 几何 , 可 以 理解 为 它们 
之 间 角 度 的 余弦 值 ， 因 此 被 称 为 余弦 相似 性 : 



































































































































M 
余弦 相似 性 (z,y) = cos(0) = 2 i= Ti Yi (15.3) 
lællliyl| TAT PES 
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然后 取 逆 得 到 相 寞 性 : 








ôx, y) = llællllyl/(e + æ: y) 


其 中 。 是 为 了 避免 零 作为 除数 而 加 入 的 一 个 小 量 。 
注意 , 余弦 相似 性 仅 取 决 于 两 个 向 量 的 方向 , 如 果 每 个 坐标 值 都 乘 以 一 个 固定 的 数 , 余弦 
相似 性 不 会 发 生变 化 。 而 如 果 一 个 向 量 乘 以 一 个 标量 值 ， 那 么 欧 几 里 得 距离 会 发 生变 化 。 标 
准 欧 几 里 得 距离 的 缺点 是 , 不 同 的 坐标 值 可 以 有 非常 不 同 的 取 值 范围 ， 导 致 距离 可 能 被 坐标 
的 某 一 个 子 集 所 文 配 。 这 可 能 发 生 在 以 不 同 的 方式 选取 测量 单位 的 情况 下 ,例如 有 的 坐标 以 
室 米 为 单位 ， 有 的 以 千克 为 单位 ， 还 有 的 以 干 米 为 单位 : 如 果 分 析 的 关键 取决 于 挑选 一 套 合 
适 的 物理 单位 ,那么 它 始终 会 令 人 非常 不 愉快 的 。 为 了 避免 这 种 麻烦 ， 我 们 需要 没有 物理 单 
位 的 无 量 纲 (dimensionless) 值 。 此外, 不 妨 对 测量 值 进行 归 一 化 ,让 所 有 的 值 在 测量 距离 之 
前 都 处 于 0~1 的 范围 。 

上 述 方法 可 以 用 下 面 的 定义 实现 : 


M 2 
15.4 
nule, y) 2 (= 一 mel ) ee) 





























































































































































































































i=l 


其 中 M 是 坐标 数 , minval; 和 maxval; 分 别 是 所 有 实体 的 第 i 个 坐标 所 能 达到 的 最 小 值 和 最 
大 值 。 
一 般 情况 下 ,可 以 确定 一 个 正定 矩阵 M 来 变换 原始 度量 : 
































dij = Vai — zj)!" M(x; 一 zj 


马 氏 距离 (Mahalanobis distance) 是 一 个 例子 , 它 考 虑 数据 组 的 相互 关系 , 而 且 是 标 度 不 变 的 
(即使 用 不 同 的 单位 进行 测量 ， 如 毫米 或 千 米 ， 它 也 不 会 改变 )。 马 氏 距 离 将 在 后 面 的 章节 中 
详细 讨论 。 
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ERX Chard clustering) 是 将 实体 集 D AHA k 个 不 相交 的 子 集 C = {C1,… Ce}, 以 
达到 下 面 的 目标 。 
。 最 小 化 平均 聚 类 内 部 的 相 异 性 : 











min XO SEa, La) (15.5) 
dı,d2€C; 
如 果 存 在 一 个 内 部 表示 形式 ,那么 聚 类 的 中 心 p; 可 以 通过 对 第 i 类 所 有 成 员 的 
内 部 表示 向 量 求 平 均值 , 来 得 到 p; = (1/|Ci|) Saec, Lae 
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这 些 情况 下 , 聚 类 内 部 的 距离 可 以 用 相对 于 聚 类 中 心 pi 的 距离 进行 测定 , 从 而 得 
到 相关 但 不 同 的 最 小 化 问题 : 





min >》 6(aa,p;) (15.6) 


dec; 





。 聚 类 间距 离 的 最 大 化 。 人 们 希望 不 同类 别 可 以 相互 区 分 清楚 。 
正如 所 料 ， 这 两 个 目标 并 不 总 是 互相 兼容 的 ， 聚 类 确实 是 一 个 多 目标 优化 任务 。 目 标的 
重要 性 留 给 终端 用 户 来 权衡 : 究竟 是 要 聚 类 内 部 的 实体 尽 可 能 相似 , 还 是 要 聚 类 之 间 的 区 别 
更 明显 ,当然 这 也 取决 于 选 定 的 聚 类 的 数目 。 
分 裂 算法 (divistve algorithm) 是 最 简单 的 聚 类 算法 之 一 。 这 类 算法 从 整个 集合 开始 ， 陆 
续 把 它 分 成 更 小 的 聚 类 。 一 个 简单 的 方法 是 一 开始 就 决定 聚 类 的 数目 k， 然 后 将 数据 细 分 为 
k 个子 集 。 如 果 效 果 不 理想 ,就 重新 选择 值 , 然后 再 运用 该 算法 。 
如 果 想 用 单个 向 量 来 表示 一 组 实体 ， 合 适 的 做 法 是 选择 使 平均 量化 误差 (quantization 
error) 最 小 化 的 原型 , 这 种 误差 是 用 原型 取代 实体 时 产生 的 : 











































































































量化 误差 =》 |z- Pea ll? (15.7) 
d 





其 中 c(d) 是 a 所 在 的 类 。 
在 统计 和 机 器 学 习 中 , K 均值 聚 类 将 样本 划分 为 天 个 由 中 心 CB ce 的 原型 表示 为 pe) 所 
表示 的 类 , 每 一 个 实例 属于 中 心 与 该 实例 最 接近 的 类 。 迭代 方法 被 用 来 确定 开 均值 中 的 原型 ， 
如 图 15-3 所 示 , 包含 下 列 步 又 。 
(1) 选择 聚 类 数 ko 
(2) 随机 生成 PRR, 并 确定 聚 类 中 心 po 或 直接 产生 个 随机 点 作为 聚 类 中 心 ( 换 言 
Zs 从 原始 数据 点 随机 选择 初始 中 心 位置 )。 
(3) 重复 以 下 步 台 ,直到 满足 某 个 收敛 标准 , 通常 是 最 后 一 次 分 配 没有 改变 , 或 已 经 达到 
ERMA ML 
(a) 将 每 个 点 z 分 配 到 中 心 最 近 的 聚 类 , 即 最 小 化 5(x,p。) 的 那个 。 
(b) 通过 求 上 一 步 中 分 配 的 点 的 平均 值 来 重新 计算 新 聚 类 的 中 心 : 
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Dax c enx © 


RX C 中 的 实体 数 





Pe < 























该 算法 的 主要 优点 是 简单 快速 , 可 以 用 在 很 大 的 数据 集 上 。K 均值 聚 类 可 以 看 作 期 望 最 
大 CEM) 算法 的 一 个 精简 版 本 “: 如 果实 例 到 聚 类 的 分 配 是 已 知 的 , 那么 就 可 以 算出 中 心 ; 另 












































O 在 统计 学 中 , 使 用 EM 算法 在 含有 隐 变 量 的 统计 模型 中 寻找 最 大 似 然 值 或 最 大 后 验 估 计量 。EM 算法 是 一 个 迭代 
方法 , 交 蔡 执行 期 望 (expectation ) 步骤 和 最 大 化 (maximization) 步骤 : 在 期 望 步骤 中 使 用 隐 变 量 的 当前 估计 值 计算 模 
型 的 对 数 似 然 期 望 , 在 最 大 化 步骤 中 计算 使 得 期 望 步骤 中 似 然 期 望 最 大 的 参数 值 。 
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方面 ,一 旦 中 心 是 已 知 的 ， 聚 类 分 配 就 很 容易 计算 了 。 因 为 一 开 


始 聚 类 中 心 (各 聚 类 的 参 





数 ) 和 成 员 分 配 都 是 未 知 的 ,所 以 通过 分 配 和 中 心 参数 重新 计算 这 两 个 步骤 的 循环 来 达到 一 


致 的 状态 。 








给 定 一 组 原型 , 一 个 有 趣 的 概念 是 沃 罗 诺 伊 图 (Voronoi diagram)。 每 个 原型 p, 被 分 配 
到 一 个 沃 罗 诺 伊 单元 , 单元 中 包含 相 比 于 其 他 原型 , 离 p, 更 近 的 所 有 点 。 沃 罗 诺 伊 图 的 分 割 

















线 是 空间 中 与 两 个 最 近 的 中 心 距离 相等 的 所 有 点 。 沃 罗 诺 伊 节 点 是 





距 的 点 。 图 15-3 给 出 了 一 个 例子 。 


与 3 个 (或 多 个 ) 中 心 等 








图 15-3 K 均值 算法 示例 (从 上 到 下 ,从 无 到 右 ), 初始 的 中 心 点 如 图 





所 示 ， 空 间 被 细 分 成 靠近 





中 心 点 的 各 个 部 分 ( 沃 罗 诺 伊 图 : 每 一 部 分 内 的 点 都 离 给 定 的 中 心 点 最 近 )， 然 后 计算 











新 的 中 心 点 , 继续 进行 细 分 


目前 为 止 , 我 们 都 在 考虑 便 聚 类 , 也 就 是 说 实体 都 被 刚性 地 分 配 。 然而 在 某 些 情况 下 , Be 
软 的 方法 会 比较 合适 , 也 就 是 说 分 配 不 是 刚性 的 , 而 是 概率 的 或 模糊 的 。 每 个 实体 的 分 配 是 




















根据 其 被 分 为 不 同 的 类 的 概率 (或 模糊 值 ) 来 定义 的 ,因此 这 些 值 


的 和 为 1。 例 如 ,考虑 秃顶 


与 非 邯 项 的 人 的 聚 类 。 如 果 把 一 位 还 有 几 根 头发 的 中 年 男子 归 为 秃顶 ,他 或 许 会 觉得 自己 没 
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有 被 温柔 相 待 。 顺 便 说 一 句 ， 这 种 情况 下 也 不 宜 谈论 秃顶 的 概率 ,还 是 模糊 隶属 度 比较 适合 : 
人 们 可 能 认为 该 人 属于 秃顶 人 和 群 的 模糊 值 为 0.4, 而 属于 头发 较 多 的 人 的 模糊 值 为 0.6。 
在 软 聚 类 (soft clustering) 中 ， 聚 类 成 员 可 以 被 定义 为 相 异 性 的 递减 函数 ， 例 如: 
as e 一 5(z,Pe) 

成 员 资格 (z,c) = Sea (15.8) 
更 新 聚 类 中 心 的 方法 可 以 是 批 次 更 新 或 在 线 更 新 。 在 线 更 新 时 ， 人 们 反复 考虑 一 个 实体 
Zz， 例如 通过 从 整个 集合 中 随机 抽取 , 推导 它 的 当前 模糊 聚 类 成 员 资 格 , 更 新 所 有 的 原型 , 使 
得 原本 接近 的 原型 更 接近 给 定 的 实体 xz: 













































































PoP. + Ap, (15.10) 























用 物理 来 类 比 ， 上 述 等 式 中 的 原型 被 每 个 实体 牵 着 ,， 沿 向 量 (zx — p.) BBN, 力 的 大 小 与 
成 员 资格 成 正比 , 因此 会 更 为 接近 a. 

在 批量 更 新 中 , 首先 对 所 有 实体 对 更 新 的 贡献 进行 求 和 得 到 Atetap。 然后 进行 更 新 ， 如 
下 所 示 : 









































Pe — Pe AtotalDe (15.11) 
如 果 参 数 7 很 小 ,两 种 更 新 的 结果 往往 会 非常 相似 ; 当 7 增加 时 ,结果 会 产生 差异 。 在 线 更 
新 避免 在 移动 原型 之 前 对 所 有 的 贡献 求 和 ， 因 此 当 数 据点 数量 变 得 非常 大 时 ， 建 议 使 用 在 线 









































K 均值 的 结果 可 以 用 散 点 图 来 进行 可 视 化 , 如 图 15-4。 k 个 聚 类 原型 都 标 有 灰色 大 圆圈 。 
某 个 类 中 的 数据 点 是 那些 在 所 有 个 原型 中 与 给 定 的 原型 最 接近 的 。 

































































图 15-4 K 均值 聚 类 , 独立 的 数据 点 和 聚 类 原型 如 图 所 示 
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E M 


无 监督 学 习 仅 用 输入 数据 建立 模型 ， 不 考虑 分 类 标签 。 具 体 来 说 ， 聚 类 的 目的 是 把 相 
似 的 实例 分 在 同一 组 , 不 同 的 实例 分 在 不 同 的 组 。 开 始 时 聚 类 的 信息 可 以 由 点 之 间 的 关系 
(外 部 表示 ) 给 定 ， 或 者 由 描述 各 个 点 的 向 量 〈 内 部 表示 ) 给 定 。 第 二 种 情况 下 , 平均 向 量 
可 以 用 作 眼 类 成 员 的 原型 。 

聚 类 的 目标 是 : 通过 抽象 化 来 压缩 信息 (考虑 群体 而 不 是 个 体 成 员 ), 确定 实验 点 ( 通 
常 不 是 随机 分 布 在 输入 空间 , 而 是 在 茶 些 区 域 “ 聚 集 ”) 的 整体 结构 , 并 通过 使 用 原型 来 降 
ARA AE Hi» 

不 存在 所 谓 “ 最 好 ”的 聚 类 准则 。 结 果 是 否 有 趣 , 依赖 于 测量 相似 性 的 方式 和 用 于 后 续 
步骤 的 分 组 的 相关 性 。 人 们 尤其 需要 对 两 个 目标 进行 权衡 : 同一 个 类 中 的 成 员 相 似 性 高 ， 
不 同类 的 成 员 的 相 蜡 性 高 。 

自 顶 向 下 的 聚 类 中 ,首先 选择 所 需要 的 类 的 数量 ， 然 后 对 实例 进行 细 分 。K 均值 聚 类 
一 开始 先 设置 个 原型 , 将 实例 分 配 到 最 近 的 原型 , 之 后 用 分 配 的 实例 的 平均 值 来 重新 计 
算 原型 

聚 类 提供 了 一 个 新 的 角度 来 看 待 你 的 狗 ， 托 比 。 狗 是 一 类 活 的 生物 体 , 有 4 只 爪子 , 会 
嘱 叫 ,开心 的 时 候 会 揪 尾 巴 。 而 托 比 是 你 最 喜欢 的 小 宠物 的 所 有 相关 经 验 和 情感 的 聚 类 。 


































































































#168 自 底 向 上 (凝聚 ) BA 


羽毛 相同 的 乌 聚 集 在 一 起 。 
(谚语: 物 以 类 聚 ， 人 以 群 分 。) 











一 般 情况 下 , 聚 类 方法 需要 设置 许多 参数 , 如 第 15 章 中 提 到 的 K 均值 聚 类 , 需要 选择 适 
当 的 聚 类 数目 。 避 免 一 开始 就 选择 聚 类 数目 的 一 种 方法 是 逐 层 构建 更 大 的 聚 类 ,并 把 选择 最 
合适 的 聚 类 数目 和 大 小 的 任务 留 给 接 下 来 的 分 析 阶 段 。 这 就 是 所 谓 自 底 向 上 或 凝聚 聚 类 。 分 
层 算法 利用 已 经 建立 的 聚 类 找到 接 下 来 的 聚 类 ,迭代 开始 时 把 每 个 元 素 作为 一 个 聚 类 ， 然 后 
将 它们 逐渐 合并 成 更 大 的 聚 类 。 每 一 步 中 都 会 选择 最 为 相似 的 聚 类 进行 合并 。 





















































16.1 合并 标准 以 及 树 状 图 


S e 表示 当前 的 聚 类 , 它 是 实体 集 的 子 集 一 一 单个 聚 类 C 一 一 的 集合 。 那 么 C 可 以 定义 
一 个 划分 : 每 个 实体 属于 一 个 且 只 属于 一 个 类 。 最 初 , C 中 只 有 单元 集 , 即 每 个 集合 只 有 一 个 
实体 。 
正如 自 项 向 下 的 聚 类 , 自 底 向 上 的 合并 也 需要 距离 的 度量 来 指导 聚 类 过 程 。 这 种 情况 下 ， 
相关 的 度量 是 两 个 类 C, D e C 之 间 的 距离 , 称 之 为 5(C, D), 这 个 距离 是 从 原来 的 实体 之 间 
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的 距离 5(z,y) 派生 出 来 的 。 我 们 至 少 有 3 种 不 同 的 方式 来 定义 它 , 不 同 的 定义 方式 会 导致 不 
同 的 结果 。 实 际 上 , 考虑 数据 对 之 间距 离 的 平均 值 、 最 大 值 或 最 小 值 都 是 可 行 的 , 如 下 所 示 : 











Deed, yeED O(a, y) 
IC] - |D| 


Ômin(C, D) = eae d(x, y) 


Dayal C; D) = 





dmax(C, D) = zec aep O(a, y) 





算法 现在 继续 执行 下 面 的 步骤 ; 
(1) 在 当前 的 C 中 查找 距离 了 = mincxp 5(C, D) 最 短 的 C 和 D; 
(2) FA CUD ER CM D, 并 且 将 8 记 作 该 合并 发 生 时 的 距离 ; 
直到 得 到 包含 所 有 实体 的 单一 聚 类 。 
层次 合并 过 程 的 历史 和 各 种 合并 操作 发 生 时 的 距离 值 可 以 用 来 绘制 树 状 图 (dendrogram， 
源 自 希腊 语 dendron“ 树 ”和 gramma“ 绘 图 ”), 以 视觉 的 方式 来 展示 合并 过 程 , 如 图 16-1 和 
图 16-2 所 示 。 






































1 2 3 4 5 6 


16-1 “二 维 空间 中 数据 点 自 底 向 上 聚 类 示意 图 〈 使 用 标准 欧 儿 里 得 距离 )， 每 个 数据 点 都 由 两 
个 数值 构成 ( 男 见 彩 插 ) 





















































树 状 图 是 一 个 树 状 结构 ， 其 中 底部 是 原始 的 实体 , 并且 用 水 平 线 来 连接 两 个 融合 的 类 来 
表示 每 一 次 的 合并 。 水 平 线 的 纵 轴 坐 标 值 显示 了 合并 发 生 时 对 应 的 8 值 。 为 了 重 构 聚 类 过 
程 , 想象 一 下 你 在 这 个 树 状 图 中 从 底部 开始 向 上 移动 一 把 水 平 标 尺 。 作 为 树 状 图 的 近亲 ， 树 
在 自然 科学 中 被 用 来 直观 地 表示 相关 的 物种 ,其 中 根 代表 最 古老 的 共同 祖先 ,分支 表 示 之 后 
分 裂 产 生 不 同 的 物种 。 
























































144 第 16 章 自 底 向 上 (凝聚 ) 聚 类 

















选择 所 期 望 的 距离 级 别 的 值 








Ft 聚 类 数目 ? 这 些 


制 , 可 以 用 于 分 析 
































图 16-2 交通 工具 的 自 底 向 上 
并 据 此 来 水 平 切割 整个 树 状 图 ， 马 上 就 得 到 了 
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KOK nE 
RATA 





该 距离 级 别 


子 树 中 的 叶子 即 是 这 些 聚 类 中 的 成 员 。 这 种 方式 提供 了 一 种 简单 的 视觉 机 
层次 结构 , 并 根据 具体 的 应 用 和 树 结 构 来 确定 合适 的 聚 类 数目 。 






































治 着 树 形 图 的 纵 轴 能 找到 一 个 大 的 水 平 距离 缺口 
确定 “自然 ”的 聚 类 。 


16.2 ”适应 点 的 分 布 距离 : BRES 

















例如 ， 如果 


， 那 么 这 是 一 个 不 错 的 水 平 切断 级 别 ， 可 以 





基于 测量 确定 头骨 相似 性 的 问题 (1927 年 ) 促使 马 氏 距离 得 到 发 展 , 现在 马 氏 距离 广泛 














= 





应 用 于 在 测量 相 异 性 时 加 入 数据 分 布 的 考虑 。 BH A EE OR EL 

















将 一 些 点 归 为 一 类 之 后 , 人 们 希望 能 (整体) 定量 地 描述 整个 类 , 而 不 是 简单 地 将 其 看 作 






































像 云 一 样 聚 在 一 起 的 点 。 接 下 来 ， 假 定形 成 聚 类 的 云 状 点 集 形式 为 简单 的 球形 或 顶 球 形 ， 暂 
时 不 包括 更 复杂 的 形式 , 例如 螺旋 形 、 之 字形 或 类 似 卷 积 的 形式 。 








此 外 , Æ N 维 欧 几 里 得 空间 中 给 定 一 个 新 的 测试 点 
率 。 第 一 步 可 以 从 寻找 的 样本 点 的 平均 值 或 中 心 3 








心 , 越 有 可 能 属于 
然而 , 我 们 也 


的 距离 , 我 们 才能 决定 它 是 大 还 是 小 。 简单 的 做 法 是 用 


来 估计 标准 差 c。 如 果 测 试点 与 质心 之 间 的 距离 小 于 一 个 标 疹 















































BR. 






















































































是 大 还 是 小 ， 这样 对 于 某 个 给 定 
样 点 到 质心 (center of mass) 的 距离 



































， 人 们 希望 估计 新 的 点 属于 该 类 的 概 
开始 。 直 观 来 说 ,所 讨论 的 点 越 接 近 这 个 中 


的 点 到 中 心 





EAE, 那么 可 以 得 出 结论 : 新 的 测 


试点 有 很 高 的 概率 属于 该 类 。 这 种 直观 的 方法 可 以 进行 量化 ,定义 测试 点 和 样本 集 之 间 的 归 


一 化 距离 (z 一 jy)/o 即 可 。 将 此 代入 正 态 分 布 , 可 以 推导 上 
上 述 方法 的 缺点 是 ， 它 假定 术 
球形 ， 那么 该 测试 点 属于 该 类 的 概率 不 仅仅 取决 于 到 质心 的 




















该 测试 点 属于 该 集合 











的 概率 。 


FE 本 点 以 球形 的 方式 分 布 。 如 果 分 布 是 高 度 非 球形 的 ， 如 椭 
E 离 ， 同 时 也 取决 于 方向 。 在 该 


16.2 适应 点 的 分 布 距离 : DRIEB 145 





E, 测试 点 必须 近 一 些 ， 而 在 长 轴 的 方向 上 , 测试 点 可 以 稍 远 一 些 。 
本 的 协 方差 矩阵 进行 估计 。 


PIERE RRETA H 
代表 该 集合 概率 分 布 的 椭 球 形 可 以 通过 构建 
En} 的 是 D 维 的 一 个 类 。 类 的 中 心 Bp 是 类 平均 值 























































































































最 能 
令 C= {z1, 
p= z >》 ai (16.1) 
i=l 
令 协 方差 矩阵 中 的 元 素 定 义 为 : 
Sij = L Spri = 2i) (Pr — P), tgp = Lie gD (16.2) 
k=1 
Thy BR BE A FE MARR ER A RI E US R A EE S fe Pt BRD AER A EU AAD E BE 
FE. 图 16-3 说 明了 这 一 概念 。 有 具体 来 说 ， 如 果 一 组 值 的 均值 是 jw、 协 方差 矩阵 是 S, 癌 量 zx 
到 这 一 组 值 的 马 氏 距离 定义 为 : 
Du(z) = y (æ - u)? S~ (æ — p) (16.3) 





EE 


因 其 数据 点 分 布 呈 椭 球 


























， 而 右 图 使 用 马 氏 距离 ， 


















































图 16-3 左 图 使 用 欧 几 里 得 距离 作为 差异 性 度量 
马 氏 距离 也 可 以 定义 为 两 个 随机 向 量 x 和 yy 之 间 的 差异 性 度量 ,这 两 个 随机 问 量 都 服 
(16.4) 








从 协 方差 矩阵 为 S 的 同一 个 分 布 
d(w,y) = \/(@-y)™S(a— y) 








如 果 协 方差 矩阵 是 单位 矩阵 ， 马 氏 距 离 就 简化 为 欧 几 里 得 距离 。 如 果 协 方差 矩阵 是 对 角 
EE 阵 , 那么 得 到 的 距离 度量 被 称 为 归 一 化 的 欧 几 里 得 距离 : 
(16.5) 
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其 中 o; 是 x; 在 样本 集 上 的 标准 差 。 






























































































































































弄 清 了 马 氏 距离 的 概念 ， 以 及 通过 由 到 质心 的 距离 所 确定 的 马 氏 距离 度量 的 椭 球 体 , 我 
们 可 以 描述 聚 为 一 类 的 云 状 点 集 ， 并 理解 聚 类 可 视 化 的 方法 。 
16.3 ”附录 : 聚 类 的 可 视 化 

本 节 介 绍 如 何在 三 维 空间 中 可 视 化 聚 类 〈 跳 过 本 节 不 会 影响 对 后 面 章 节 的 理解 )。 为 了 以 
图 像 的 方式 表示 聚 类 ， 可 以 将 它 的 惯性 栅 球体 可 视 化 , 表面 由 到 该 聚 类 平均 位 置 距离 为 单位 
距离 的 点 的 轨迹 组 成 , 距离 度量 是 描述 该 类 别 的 马 氏 度量 。 开始 时 将 数据 点 投影 到 三 维 空间 ， 
并 计算 相应 的 3 x 3 的 协 方差 矩阵 。 








































































































































































































图 形 软件 包 的 三 维 演 染 中 ， 点 可 以 用 RE 中 的 齐 次 坐标 系 的 行 向 量 来 表示 ， 无 限 平面 表 
示 为 (x,y,z,0), 将 单位 球体 映射 成 所 需 的 椭 球 体 的 投影 坐标 变换 由 下 面 的 矩阵 表示 : 
S11 Si2 Siz 0 
S21 S22 S23 0 
Ta = 16.6 
. S31 S32 $33 0 eo 
Pi P2 ps 1 
当 上 下 移动 层次 聚 类 的 级 别 时 ， 类 C 将 拆 分 成 若干 个 类 O01,… ,Cr。 为 了 在 脑海 中 形成 
正确 的 图 像 , 可 以 将 椭 球 体 To 与 其 1 个 后 代 To ,Tc, 的 参数 化 过 渡 想 象 成 一 组 动画 , 并 
FLA ERS 
TA, = (1 — A)To +ATc,, i=1,.…,l 
可 以 被 画 出 来 ， 其 中 参数 和 在 一 个 给 定 的 时 间 段 内 (目前 是 1 秒 钟 ) 均匀 地 从 0 变 为 1。 这 
将 有 效 地 展现 出 原始 的 椭 球 体 变 形 (morphing) 成 它 的 后 代 的 过 程 。 
图 16-4 展示 了 分 析 一 组 汽车 得 到 的 聚 类 , 其 特征 由 含有 机 械 特性 和 价格 的 向 量 给 定 。 边 
的 强度 与 物 距 有 关 : WERE, MERR. 
人 们 可 以 上 下 浏览 聚 类 的 层次 结构 ， 直 到 确认 用 于 分 析 的 合适 的 聚 类 数目 。 接 下 来 就 可 




















以 对 原型 进行 检查 , 进而 概括 地 描述 这 些 数据 。 








在 这 种 方式 下 , 一 种 特别 有 用 的 浏览 工具 是 平行 坐标 











展示 。 一 个 将 费 希 尔 音 尾 花 数 据 集 











分 成 3 类 的 例子 如 图 16-5 所 示 。 在 平行 坐标 图 中 , 每 个 垂直 轴 对 应 着 数据 的 一 维 属 性 ， 一 个 


n 维 


A 
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Bis ih 


























a 








的 点 ， 还 是 整体 的 


空间 的 数据 点 可 以 表示 成 一 条 折线 A 
i 个 端点 在 轴 上 的 位 置 对 应 了 
可 以 调整 轴 的 顺序 、 线 和 背景 色 等 
构 ( 或 项 集 的 子 集 ), 视觉 上 都 非常 直观 。 























F 数 据 中 第 i 维度 


几 条 线段 组 成 ) 它 的 每 个 端点 都 在 平行 的 轴 - 





























a 








只 显示 我 们 感 兴趣 的 

















7N 




















YE ye 
RRA 


的 值 
BIE ib Al 


。 使 用 过 滤器 可 以 
片 更 加 美观 。 








REZ, 无 论 是 单个 


















































16.3 附录 : 聚 类 的 可 视 化 ”147 
Ferrari 458 ltalia | 
图 16-4 ”对 汽车 的 机 械 特性 进行 聚 类 

4.5 

4 
3.5 

3 
2.5 

2 
苯 片 宽度 HKE ES IE BE 花 浙 长 度 

一 SE 一 SESE — 维 吉 尼 亚 意 尾 
图 16-5 ” 费 希 尔 营 尾 花 数 据 集 (每 打 花 包含 4 个 度量 属性 ) 的 平行 坐标 展示 , 每 个 属性 都 用 一 个 





























垂直 轴 表 示 ， 数 据 中 的 第 i 项 属性 值 表示 为 折线 与 对 应 的 第 《个 垂直 轴 的 交点 〈 马 见 














彩 插 ) 
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多 














平行 坐标 图 可 能 是 最 简单 有 效 却 最 不 为 人 知 的 可 视 化 n 维 数据 的 方法 。 当 n 大 于 2 或 
3 时 , 我 们 很 难 直 接 通 过 眼睛 观察 数据 。 你 不 必 等 到 成 为 工程 师 以 后 才 使 用 这 个 方法 (现在 很 














开明 的 组 织 已 经 在 使 用 它 )。 














E M 


凝聚 聚 类 生成 一 棵 包含 数据 点 的 树 〈 层 次 结构 )。 如 果 你 不 熟悉 树 结构 ,可 以 想 想 用 来 
整理 文档 的 文件 夹 , 无 论 实际 中 的 还 是 计算 机 中 的 (与 菜 项 目 相 关 的 文档 放 在 一 起 , 然后 











与 不 同 项 目 相关 的 文件 夹 合并 成 一 个 “工作 进行 中 ”文件 夹 等 )。 











想象 一 下 ,你 没有 秘书 ,也 没有 时 间 手 动 完 成 : 自 底 向 上 的 聚 类 方法 可 以 为 你 完成 工 
作 , 只 要 你 找到 一 个 合适 的 方法 来 测量 单个 数据 点 之 间 的 相似 性 , 以 及 已 经 合并 的 数据 点 





集 之 间 的 相似 性 。 
这 种 方法 被 称 为 自 底 向 上 ,是 因为 它 从 单个 数据 点 开始 , 合 























并 最 相似 的 那些 点 , 然后 








合并 最 相似 的 集合 , 直到 获得 单一 的 集合 。 开 始 时 没有 指定 聚 类 的 数目 ， 而 是 用 不 同 的 相 
似 性 水 平 来 切割 这 棵 树 〈 也 称 为 树 状 图 )， 演 试 了 若干 种 不 同 的 切 法 之 后 , 可 以 找到 一 个 合 








通过 凝 案 聚 类 ， 圣 诞 老 人 可 以 把 所 有 的 年 诞 礼物 放 在 一 只 很 大 的 红色 盒子 里 。 人 们 














Ht, XAM- AES. FI, Bee Belts 











盒子 。 


真 了 








E 放 着 礼物 的 “叶子 ” 











第 17 章 ” 自 组 织 映 射 

祖母 细胞 是 一 个 假设 的 神经 元 ， 表 示 任 何 复杂 且 具 体 的 概 
念 或 对 象 。 当 一 个 人 的 大 脑 “看 到 ， 听 到 ,或 以 其 他 方式 判别 ” 
一 个 特定 的 实体 ， 例 如 他 或 她 的 祖母 时 ， 它 就 会 激活 。 


一 一 Jerry Lettvin, 1969 


小 矮人 的 大 脑 























从 前 面 的 章节 中 ,你 应 该 已 经 熟悉 基本 的 聚 类 技术 了 。 聚 类 确定 相似 数据 的 分 组 ， 有 些 
情况 下 会 用 到 层次 结构 〈 分 组 ， 然 后 组 包含 组 ， 等 等 )。 如 果 存 在 一 种 内 部 表示 , 那么 一 个 组 
可 以 用 一 个 原型 来 表示 。 本 章 涉及 原型 的 排列 ， 排 列 依 据 是 规则 的 网 格 结构 ， 以 及 这 个 网 格 
中 的 邻居 的 相互 影响 。 

主要 思路 是 聚 类 数据 实体) 同时 在 一 个 二 维 图 上 可 视 化 这 个 聚 类 的 结构 。 人 们 想 要 得 
到 的 可 视 化 至 少 应 该 近似 地 和 聚 类 相 一致 一 一 这 应 该 足够 使 你 好 奇 并 愿意 继续 读 下 去 。 
每 个 聚 类 i 都 以 原型 p; 作为 代表 向 量 。 在 市 场 营销 领域 ， 常 常会 标识 不 同 的 客户 类 型 ， 
并 通过 原型 (富有 的 单身 汉 , 已 成 家 的 中 产 阶 级 工人 等 ) 来 描述 。 原 型 会 与 我 们 的 实体 具有 数 
相同 的 坐标 ,向量 的 每 个 分 量 将 描述 给 定 聚 类 的 一 个 代表 值 ， 例 如 包含 在 该 聚 类 中 的 各 实 
体 的 平均 值 。 
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然 , 对 于 高 维 问题 (有 两 个 以 
得 到 足以 根据 数据 进行 推理 
人 工 神 经 网 络 , 它 能 产生 训练 样本 的 二 绢 
人 工 神经 网 络 的 ， 



















































































因此 也 被 称 为 Kohonen 映射 。 


17.1 ”将 实体 映射 到 原型 的 人 工 皮 层 


自 组 织 映 射 (SOM) 








用 解决 方案 ， 






































在 二 维 可 视 化 空间 里 ， 想 要 得 到 连贯 的 可 视 化 ， 类 似 的 原型 就 应 该 放 在 邻近 的 位 置 。 当 
FF 坐标 值 的 问题 )， 没 有 确切 的 可 
的 逼近 。 自 组 织 映 射 (SOM) 是 使 月 





因此 将 目标 定 为 


无 监督 学 习 训 练 得 到 的 一 种 
表示 ， 称 为 映射 。 该 模型 是 由 Teuvo Kohonen 引入 











由 组 件 节 点 或 神经 元 构成 。 节 点 的 排列 是 一 个 二 维 网 格 中 的 正规 布 








局 。 在 某 些 情 况 下 ,网 格 是 六 边 形 的 ,使 得 每 个 节点 有 6 个 最 接近 的 邻居 ,而 不 像 传统 的 方 








形 网 格 中 那样 有 4 个 邻 
置 , 其 中 原型 向 量 与 输入 数据 向 量 有 相同 的 维 数 。 














E CULE 17-3)。 每 个 大 点 i 附带 一 个 原型 向量 p; 和 映射 空间 中 的 位 


再 次 与 我 们 的 神经 系统 进行 类 比 : 神经 元 是 根据 在 大 脑 中 连接 的 物理 网 络 组 织 起 来 的 ， 





在 现实 中 是 二 维 或 三 维 的 。 一 些 神 经 元 | 























演化 和 训练 进行 调整 ， 当 特定 事件 被 触发 时 ， 它 会 





放出 电信 号 , 如 图 17-1 所 示 。 例 如， 当 你 母亲 进入 你 的 视野 时 , 某 个 神经 元 可 能 会 放出 信号 。 





这 种 情况 下 的 原型 是 通过 对 应 于 你 母亲 的 视觉 特征 给 出 的 ， 位 置 则 是 大 脑 中 神经 元 的 物理 











位 置 。 











图 17-1 ”外 界 刺激 激活 大 脑 某 区 


成 “祖母 细胞 ”) 的 示意 图 。 在 某 些 











区 域 , 神经 元 被 近似 地 排列 


























成 二 维 结构 , 就 像 大 














脐 的 皮层 ， 最 高 级 的 功能 位 于 划 


表层 


我 们 的 神经 系统 的 另 一 个 原则 是 , 在 许多 情况 下 , 相 邻 的 神经 元 往往 会 被 类 似 的 输入 数 














据 所 激发 〈 你 母亲 的 出 现 所 激发 的 神经 元 ， 





其 邻居 可 能 会 





























神经 元 , 并 ] 





日 包含 一 个 原型 向 量 。 于 是 一 个 普通 的 实 





被 你 母亲 的 一 张 老 照片 所 激发 )。 训 
练 结束 后 ， 自 组 织 映射 描述 从 高 维度 输入 空间 到 二 维 空间 的 映射 。 每 个 二 维 的 单元 对 应 一 个 
森 则 被 映射 到 (或 指定 到 ) 原型 向 量 

















与 描 
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述 该 实体 的 向 量 最 接近 的 神经 元 , 如 图 17- 








2 所 示 。 该 训练 可 以 从 原型 向 量 的 随机 初始 配置 开 




















始 ( 例 如 选择 实体 的 某 个 随机 子 集 ), 然后 通过 表示 和 映射 随机 选择 的 实例 进行 迭代 。 获胜 神 
经 元 cla)» 或 简称 o 其 原型 向 量 是 最 接近 描述 当前 实例 xz 的 向 量 : 

















clz) = argmin ||æ — pl (17.1) 








接 下 来 改变 获胜 原型 p(s。), 使 之 更 接近 于 网 络 中 的 当前 实例 中 的 那 一 个 。 另外， 附近 的 向 量 

















的 原型 也 以 类 似 的 方式 被 改变 , 虽然 随 着 网 格 中 的 距离 增加 ,改变 的 量 会 越 来 越 小 。 




















图 17-2 SOM 将 多 维 空间 中 的 实体 映射 到 二 维 空间 的 神经 细胞 中 ,每 个 神经 元 拥有 一 个 原型 ， 
并 且 每 个 实体 都 被 映射 到 其 最 接近 的 那个 神经 元 中 










































































想 想 看 , 在 民主 制度 中 , 要 求 选民 (实体 ) 教育 一 组 按 规则 排列 的 代表 (如 同 在 议会 中 )， 





使 他 们 中 至 少 有 一 个 能 代表 有 相关 主张 的 聚 类 ,， 坐 在 附近 位 置 上 的 代表 会 相互 影响 ,并 且 答 
往 会 变 得 相似 。 存在 两 个 “ 力 场 ”: 实体 和 原型 的 吸引 力 ， 以 及 网 格 中 相 邻 的 原型 之 间 的 吸引 

































































是 很 复杂 的 。 


Jo 实体 (选民) 争夺 原型 : 每 个 实体 都 拉动 它 的 获胜 原型 ， 并 在 较 小 程度 上 , 获胜 原型 的 邻 
居 朝 着 自己 移动 , 使 之 更 加 相似 。 当 然 , 不 同 的 实体 拉 向 不 同 的 方向 , 因此 所 得 到 的 动力 系统 











解释 了 基本 机 制 和 动机 后 , 现在 来 关注 细节 。 在线 学 习 模 式 中 ,每 次 迭代 t 都 提取 出 来 














一 个 随机 实体 z, 确定 其 获胜 神经 元 cr 并 |] 














修改 : 











日 所 有 的 原型 向量 p(t) 在 迭代 (时 间 ) 二 时 做 如 下 


pi(t+1) —p,(t) + n) - Act (cx), i, a(t)) : 一 PP 的) (17.2) 











其 中 n(t 


Ww 





是 一 个 随时 间 变 化 的 小 的 学 习 速 率 ，Act (c,i,0(t)) 是 一 个 激活 函数 , 它 依 赖 于 二 维 


网 格 中 的 两 个 神经 元 之 间 的 距离 ， 以 及 随时 间 变 化 的 半径 o(t)。 公 式 中 涉及 的 两 个 神经 元 有 
模式 x 的 获胜 神经 元 c， 以 及 模式 pilt) 正在 被 更 新 的 神经 元 i。 更 新 的 机 制 类 似 于 式 (15.9) 















































组 织 ， 以 确定 激活 电 平 。 














中 所 描述 的 用 于 K 均值 软 聚 类 更 新 的 机 制 , 但 也 有 重要 的 区 别 : 现在 的 神经 元 有 规则 的 二 维 




































































为 了 帮助 收敛 , 通常 学 习 速 率 随 着 时 间 下 降 , 半径 参数 也 是 同样 的 情况 。 基 本 思路 是 , 在 
开始 时 ,神经 元 原型 移动 更 快 (幼儿 的 神经 可 塑性 更 高 ), 并 且 往 往 会 激活 一 大 组 邻居 ,然而 
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到 了 后 来 ,移动 会 变 慢 ， 并 且 影 响 也 局 限于 一 小 组 邻居 ， 这 时 排列 有 可 能 已 确定 数据 分 布 的 
主要 特征 , 所 需 的 仅仅 是 一 些微 调 。 某 些 情况 下 , 学 习 率 随时 间 递 减 , 比如 n(t) = A/(B +t). 
合理 的 默认 值 可 以 是 m(t) = 1/(20 +t). 

在 以 批 处 理 的 方式 训练 时 ， 所 有 ON 个 实体 zj 都 呈现 给 SOM, 确定 它们 的 获胜 神经 元 
c(Zj)， 然 后 进行 如 下 更 新 : 


























Eia Act (ele) 4, o(¢)) wy 
并 Act (e(æ;), i, o(t)) 
每 个 原型 都 以 所 有 实体 的 一 个 加 权 平 均 来 更 新 ， 其 中 权重 正比 于 神经 元 网 格 空间 (通常 为 二 

维 ) 中 获胜 神经 元 的 原型 和 当前 原型 之 间 的 临近 区 域 。 
于 系统 的 复杂 性 , 建议 尝试 使 用 不 同 的 参数 和 不 同 的 时 间 安 排 , 直到 得 到 可 接受 的 结 
果 。 例 如, 一 个 合适 的 邻 域 激活 函数 可 以 是 : 





(17.3) 















































Act (c, i, o(t)) = exp (m) (17.4) 


其 中 do, 是 二 维 网 格 中 的 两 个 神经 元 之 间 的 距离 ，o(t) 是 一 个 邻 域 半 径 ， 一 开始 它 包 括 的 不 
限于 最 接近 的 邻居 ,不 过 最 后 只 包括 一 组 临近 的 邻居 。 注 意 ， 不 要 混淆 网 格 中 的 神经 元 之 间 
的 距离 (如 图 17-3 所 示 ) 和 数据 的 原始 多 维 空间 原型 向 量 之 间 的 距离 ! 


























Al17-3 自 组 织 映射 中 一 个 邻居 的 例子 : 距离 分 别 为 1 和 2 的 邻居 神经 元 
& TOTsom 为 SOM 的 神经 元 总 数 , TOT iter 为 执行 迭代 的 总 次 数 。 默认 值 从 VITOTsom 
开始 , 如 果 网 格 是 方形 的 , 这 是 一 个 接近 网 格 半径 的 值 , 结束 时 值 为 2， 如 下 所 示 : 


(TOT ter — t)VTOTsom + 2t 
a(t) = 
TOT iter 



































(17.5) 
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该 映射 或 类 似 映 射 的 复杂 本 质 不 应 该 让 用 户 感到 气 馆 : 在 许多 情况 下 , 基本 参 
简单 的 默认 值 就 能 得 到 可 以 接受 的 结果 。 但 男 一 方面 ,这 并 不 奇怪 , 我 们 大 脑 的 



































制 确实 复杂 程度 很 高 ， 



























































因为 我 们 是 拥有 智能 且 有 一 部 分 变幻 莫 测 的 人 类 , 不 是 吗 ? 





17.2 ”使 用 成 熟 的 自 组 织 映射 进行 分 类 




















用 SOM 来 指导 问题 的 
































即使 你 不 想 沉 迷 于 上 述 数学 细节 中 各 种 上 下 标的 “灯红酒绿 ”里 ， 你 仍然 可 以 有 效 地 利 
E 理 。 训 练 结束 后 ,SOM 可 用 于 为 新 对 象 进行 分 类 ， 先 寻找 最 接近 的 





(获胜 ) 原型 , 然后 将 新 对 象 分 配 到 对 应 的 神经 元 , 如 图 17-4 所 示 。 在 许多 情况 下 , 看 过 原型 


之 后 , 很 容易 为 不 同 的 神 








jh 经 元 命名 ,以 帮助 推理 和 记忆 。 但 我 们 注意 到 , 神经 元 可 能 会 发 现 不 








同 寻 常 的 组 合 , 带 来 有 趣 的 洞 见 和 新 群体 的 发 现 , 而 不 只 是 重新 发 现 平 凡 的 分 类 。 


图 17-4 SOM 的 一 个 类 比 示 意图 : 每 个 
着 相似 的 物品 





想象 一 下 月 
是 “富有 的 单身 汉 ”“ 有 孩子 的 贫穷 家 庭 ”“ 年 长 的 退休 人 员 ” “被 宠 坏 的 青少年 ”等 。 当 
à 上 相应 的 原型 , 例如 选择 向 他 推销 你 产品 的 最 佳 策略 。 








个 






































经 元 就 像 橱 柜 里 井然 有 序 的 抽 居 ， 相 邻 的 抽 导 中 存放 



































市 场 营销 数据 训练 SOM: 每 一 个 神经 元 可 能 代表 客户 的 特征 组 , 其 名 称 可 以 





新 客户 到 来 时 , 你 可 以 很 容易 地 识别 
































如 果 你 是 一 个 电影 迷 , 训练 SOM 为 不 同 的 ! 


外 影 分 类 ， 可 以 使 用 SOM 为 一 个 新 的 电影 分 类 ， 

















例如 《以 很 高 的 概率 ) 预测 你 是 喜欢 还 是 不 喜欢 。 
在 SOM 中 , 训练 的 质量 可 以 通过 量化 误差 (用 获胜 原型 癌 量 
均 误差 , 即 所 有 数据 问 量 离 其 最 接近 的 原型 的 平均 距离 ) 来 测量 




















Dew) 替代 实体 z 导致 的 平 
或 通过 更 复杂 的 拓扑 误差 ， 



































它 与 赋值 相关 ,在 某 些 情况 下 ， 原 始 高 维 空间 中 的 接近 的 向 量 不 能 正确 赋予 神经 元 网 格 空 间 
(通常 是 二 维 ) 中 接近 的 神经 元 。 拓 扑 误差 可 以 用 所 有 数据 向 量 最 接近 和 第 二 接近 的 原型 〈 在 
原 多 维 空间 中 ) 在 映射 中 不 是 邻接 神经 元 的 比值 来 计算 。 
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颜色 编码 可 以 用 来 表示 一 个 维度 的 数据 点 的 值 ， 而 每 个 六 边 形 的 大 小 可 以 表示 沿 着 另 一 
维度 的 值 ( 见 图 17-5)。 彩 色 的 映射 被 称 为 组 件 或 组 件 平面 , 并 且 可 以 通过 比较 来 确定 局 部 关 
系 。 可 以 将 SOM 映射 与 散 点 图 显示 或 者 平行 坐标 显示 相 结 合 , 来 制定 有 趣 的 新 分 析 技 术 〈 见 
图 16-5)。 例 如 ， 当 鼠标 指针 移 到 SOM 的 神经 元 上 , 与 每 个 神经 元 相关 联 的 原型 向 量 的 位 置 
可 以 用 散 点 图 显示 或 以 平行 坐标 显示 。 以 这 种 方式 , 可 以 进一步 分 析 相 关 实 体 的 细节 。 
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图 17-5 ”一 个 SOM, 颜色 和 大 小 取决 于 二 维 原型 向 量 的 两 个 坐标 ， 可 以 将 鼠标 移 到 神经 元 上 来 
显示 原型 的 值 (通过 LIONoso.org 提供 的 软件 ， 另 见 彩 插 
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自 组 织 映 射 有 两 个 目标 : i R A RK; 让 原型 以 二 维 网 格 形 
式 组 织 ， 从 而 让 邻近 的 原型 在 网 格 中 能 经 常 被 映射 到 类 似 的 数据 点 。 

背后 动机 部 分 是 生物 的 《我 们 的 神经 皮质 大 致 是 由 神经 细胞 的 二 维和 三 维 结构 组 织 起 
来 的 )， 而 男 一 部 分 与 可 视 化 有 关 。 一 种 二 维 网 格 可 以 在 屏幕 上 可 视 化 ， 并且 原 型 的 特征 
不 是 随机 分 散 的 , 而 是 慢 慢 改变 , 因为 邻居 关系 会 带 来 更 易于 理解 的 可 视 化 效果 。 

如 果 将 数据 点 想象 成 大 海里 的 鱼 群 , 那么 SOM 就 是 有 弹性 的 渔网 ,目标 是 捕捉 到 最 
多 数量 的 鱼 ， 又 保证 网 不 会 破 。 
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你 ， 享 有 阴影 和 光亮 ， 被 赋予 两 只 眼睛 ， 拥 有 透视 的 能 
陶醉 于 五 颜 六 色 中 ; 你 , 可 以 理解 角度 ,可 以 在 三 维 空间 中 看 到 
一 个 圆 的 完整 圆周 一 一 我 怎样 才能 向 你 描述 清楚 我 们 在 平面 
大 陆 中 遇见 的 极度 不 同 ? 

一 一 《平面 国 》，1884， 埃 德 温 阿 博 特 





在 探索 性 数据 分 析 中 ,实际 上 使 用 的 是 大 脑 的 无 监督 学 习 能 力 ， 以 从 数据 中 找到 有 趣 的 
模式 和 关系 。 将 实体 映射 到 二 维 空间 很 有 用 ， 使 得 我 们 用 眼睛 就 可 以 对 它们 进行 分 析 。 映 射 
必须 尽 可 能 多 地 保留 存在 于 原始 数据 中 的 ， 描 述 实 体 之 间 的 相似 性 和 多 样 性 的 相关 信息 。 例 
如 ， 想 想 一 个 营销 部 经 理 分 析 他 的 客户 之 间 的 相似 性 和 相 异 性 ， 可 以 针对 不 同 的 人 群 安排 不 
同 的 活动 ; 或 者 人 力 资源 部 经 理 试图 把 不 同 员工 所 拥有 的 能 力 进行 分 类 。 我 们 想 在 二 维 空间 
里 排列 实体 , 使 类 似 的 实体 相互 靠近 , 而 不 同 的 实体 相互 远离 。 注意 这 种 方法 和 SOM 映射 明 
EAE. Æ SOM F, 与 二 维 网 格 相 联 系 的 原型 向 量 被 移动 (坐标 发 生 改 变 ) DI a JE 
空间 , 而 这 里 的 方法 将 原始 数据 点 通过 不 同 的 方式 映射 到 一 个 二 维 表面 上 。 
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根据 第 15 章 〈 见 图 15-2) 的 讨论 , 回想 一 下 系统 中 给 定 初始 信息 的 两 种 方法 。 第 一 种 使 
用 实体 的 可 能 性 是 通过 内 部 结构 (坐标 向 量 ) 表述 。 这 种 情况 下 , 必须 用 原始 坐标 推导 出 实体 
之 间 的 相似 性 度量 ， 例 如 考虑 两 个 对 应 的 向 量 之 间 的 欧 几 里 得 距离 。 第 二 种 使 用 实体 的 可 能 
性 是 通过 实体 之 间 成 对 关系 的 外 部 结构 ,通过 相似 性 或 相 异 性 来 表示 。 我 们 只 处 理 相 异 性 以 
避免 混淆 ， 把 转变 公式 就 能 处 理 的 其 他 情况 留 给 读者 。 为 了 符号 表示 清晰 ， 让 n 个 实体 由 一 
些 相 互 之 间 的 相 寞 性 diy 来 确定 。 部 分 相 异 性 可 以 是 未 知 的 。 































































































图 18-1 将 实体 (点 ) 通过 外 部 相 异 性 〈 边 ) 连接 起 来 

















一 个 合适 的 模型 是 无 向 图 , 如 图 18-1 所 示 ， 其 中 每 个 实体 由 一 个 节点 表示 ， 两 个 节点 之 
间 的 连接 的 权重 是 557， 当 且 仅 当 相应 实体 的 距离 定义 为 dijo 图 中 的 边 的 集合 表示 为 Eo 

这 两 种 情况 〈 坐 标 或 关系 ) 可 以 组 合 起 来 。 在 某 些 情况 下 , 提供 给 系统 的 信息 包含 坐标 和 
关系 两 者 。 作 为 一 个 非常 具体 的 例子 ,想象 一 些 自 动 聚 类 方法 被 应 用 到 数据 向 量 上 。 然 后 我 
们 可 以 声明 两 个 实体 是 相 异 的 (5;; = 1)， 当 且 仅 当 它 们 不 属于 同一 个 聚 类 。 该 附加 信息 可 以 
用 来 鼓励 可 视 化 ， 其 中 来 自 同一 聚 类 的 实例 往往 在 二 维 空间 中 也 很 接近 。 其 他 情况 下 ， 人 们 
给 出 的 实例 相 异 性 的 指示 可 以 帮助 调 优 可 视 化 ,并 适应 用 户 的 意愿 。 

用 来 区 分 不 同上 下 文 的 一 种 方式 , 需要 处 理 可 视 化 中 的 监督 水 平 ， 即 过 程 给 定 的 提示 类 
型 。 监督 的 类 型 包含 了 从 纯粹 无 监督 的 方法 ( 仅 给 出 坐标 ) 到 监督 的 方法 (完全 给 定 关 系 或 相 
异性 ), 再 到 结合 了 向 量 空间 中 的 无 监督 探索 和 标记 方法 的 方式 。 

明确 上 下 文 之 后 , 根据 可 用 数据 , 考虑 如 何 利用 这 些 数 据 来 产生 有 用 的 可 视 化 效果 。 下 面 
的 章节 中 将 讨论 线性 代数 得 出 的 方法 ， 而 更 普遍 的 非 线性 方法 将 在 更 后 面 的 章节 中 描述 。 像 

往常 一 样 ， 线 性 方法 简单 易 懂 ,， 非 线性 的 方法 原则 上 更 强大 但 也 更 为 复杂 。 



























































































































































































































































18.1 ”线性 投影 


本 章 从 线性 代数 开始 。 设 交 是 向 量 (实体 ) 的 数量 , 并 设 m 是 每 个 向 量 的 维 数 (坐标 数 )。 
为 方便 起 见 , 这 个 向 量 可 以 作为 行 向 量 存 储 在 一 个 nxm 的 矩阵 X 里 ,为 了 方便 读者 , 拉 
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TPE GA j 用 来 指示 数据 项 ,而 希腊 字母 a 和 8 用 来 指示 坐标 。 因此 ，Xio 表示 数据 i 的 





A 
第 a 个 








坐标 。 本 章 的 其 余 冲 
BVP Xia = 0。 如 果 原 始 数 据 不 是 





分 假定 数据 是 中 心 化 的 ， 即 整 











至 个 数据 集 














上 的 每 个 坐标 的 平均 值 是 
































中 心 化 的 , 它们 可 以 通过 


个 简单 的 转换 来 预 处 理 。 换 








句 话 说, 我们 对 数据 点 的 绝对 位 置 不 感 兴趣 , 但 是 对 它们 相对 于 其 他 数据 的 相对 位 置 感 兴趣 。 


我 们 用 S 来 表示 m 














xm 的 有 侦 协 方差 矩阵 3 = 











这 就 是 所 谓 的 协 方差 ， 因 
个 坐标 同时 趋 于 正 值 ， 贝 











实际 上 ， 如 果 某 个 坐标 值 
协 方差 将 被 改变 。 


AEF AD, 





BAN AG HER 





乘 以 




















FERIR. L 


Eo y 的 每 一 个 坐标 a 是 由 工 的 行 向 
vP E R” 被 称 为 方向 矢量 ， 下 面 我 们 假定 它们 具有 单位 范 数 [vol] = 1， 
vo 上 得 到 的 。 如 果 投 影 所 有 实 


向 量 vty. 


化 后 的 p 维 空间 的 每 个 坐标 a 都 是 通过 将 原始 矢量 z 



































I 协 方差 中 的 和 将 是 一 个 大 的 正 值 
个 常数 〈 每 一 次 改变 物理 

一 个 不 依赖 于 物理 
coefficient )， 即 协 方差 除 以 所 涉及 坐标 的 标准 差 的 乘积 
各 这 些 实例 变换 到 p HEAR 
由 一 个 p x m 的 矩阵 表示 ， 


















































单位 时 





XTX, 其 中 的 元 素 Soe = 2 Din XiaXip。 

为 每 一 项 都 测量 不 同 数据 情况 下 两 个 坐标 如 何 一 起 变化 。 若 两 
， 而 这 对 于 负 值 来 说 应 该 也 成 立 。 
会 发 生 这 种 情况 , 例如 ， 从 
单位 变化 的 度量 是 相关 系数 (correlation 
。( 人 参见 7.2 
间 的 一 个 线性 变换 L, p 的 值 通常 为 2， 但 是 我 们 保 
它 以 通常 的 矩阵 乘法 y = Lz 作用 在 向 量 x 











We) 




















入 影 到 




















fil, 并 且 重 复 所 有 坐标 ,就 会 得 至 
在 可 能 的 线性 变换 中 , 有 趣 的 可 视 化 是 由 正 交 投影 所 得 ， 方向 向 量 vt, 
i 18-2 所 示 。 请 注意 , 这 里 bus 是 通常 的 






























































图 18-2 


并 具有 单位 范 数 ze . 








A 








到 坐标 向 量 x1 = Xv, 


VP = bq,0,0,8=1,+*- 











„P? ma 














这 种 情况 下 , A Tal A 
量 构 成 的 平面 ) 





一 个 投影 : 每 条 虚线 都 连接 着 一 个 向 量 和 其 在 由 v 和 z 定义 的 平面 上 的 投影 














Æ v* 和 原始 坐标 向 量 z 的 标量 积 得 到 的 。Z 的 p MY 


因此 转 

















* ,TP = Xv?。 


v? 相互 正 交 ， 








CE 























时 是 x Al y 轴 , 通常 情况 下 投影 可 以 参照 








任何 两 个 不 相关 向 
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50 7 AY oe eA (Kronecker delta), ‘EF 1〈 当 且 仅 当 两 个 指标 是 相等 的 )， oe iad 性 混 
YA! 正 交 投影 的 ob tte 坐标 的 一 个 子 集 (这 种 情况 下 ve = (0,0,… ,1,:… ,0,0); 
所 选 坐 标 为 1, 所 有 其 他 坐标 为 0) 。 其 他 实例 先 旋转 原始 向 量 ， ne ver 

这 种 可 视 化 很 简单 ， 因 为 它 显示 了 数据 的 真正 性 质 ， 对 应 原 空间 中 定位 的 直觉 概念 ， 远 
离 数 据点 ,从 不 同 的 视角 来 看 数据 。 想 想 以 任意 方位 摆 放 一 pene 屏幕 , 打开 灯 〈 从 离 数 
据 很 远 的 地 方 )， 并 观察 投影 下 的 阴影 。 相 反 , 非 线性 变换 可 以 改变 原始 数据 的 分 布 ， 以 任意 
的 、 具 有 潜在 复杂 性 的 、 反 直觉 的 方式 ， 就 像 通过 一 个 变形 透镜 来 观察 世界 。 

作为 线性 预测 的 附加 功能 , 它 使 得 解释 p 维 坐标 很 容易 ， 因 为 每 一 个 坐标 都 是 原来 坐标 
的 线性 组 合 (例如 , 该 组 合 的 系数 大 小 Ha 了 很 多 原始 坐标 与 投影 之 间 的 关联 )。 

存储 方向 向 量 的 存储 需求 是 有 限制 的 , 每 一 点 投影 的 计算 复杂 度 是 通常 的 矩阵 向 量 相 乘 
的 复杂 度 。 

现在 动机 已 经 有 了 , 接 下 来 考虑 一 些 最 成 功 的 线性 可 视 化 方法 。 









































































































































18.2 ” 主 成 分 分 析 


要 理解 这 一 历史 性 的 转换 ( 主 成 分 分 析 由 卡尔 ”皮尔 逊 于 1901 年 发 明 ), 就 要 专注 于 主 
成 分 分 析 (PCA) 尝试 解决 的 问题 。 像 往常 一 样 , 优化 是 力量 之 源 , 并 有 助 于 我 们 理解 运算 的 
深层 含义 。 主 成 分 分 析 要 找到 的 正 交 投影 应 能 将 投影 之 后 的 数据 元 素 之 间 的 平方 距离 的 总 
和 最 大 化 。 

如 果 dist? 是 两 个 数据 点 i 和 7 的 投影 之 间 的 距离 : 













































































PCA 最 大 化 : 
> (dist?,)? (18.1) 


其 目的 在 于 使 数据 点 尽 可 能 分 散 , 但 只 考虑 投影 则 意味 着 ,相互 距离 不 能 增加 超过 原 有 
的 距离 dist? < disti;〔 考 虑 将 毕 达 哥 拉 斯 定理 用 于 由 原始 向 量 、 投影 向 量 以 及 连接 投影 和 原 
始 向 量 的 向 量 定义 的 三 角形 )。 我们 能 得 到 的 最 好 结果 是 尽 可 能 近似 平方 距离 的 原始 总 和 
max x 2 dist?,)? < > (dist;;)? (18.2) 
i<j i<j 


are ee n 

























































































@ 实 际 上 眼睛 或 相机 的 映射 是 一 个 透视 的 视角 ,所 以 不 能 仅仅 通过 字面 上 的 意思 来 类 推 。 
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使 服从 vo y? = 0a,ß, a, 3 =1,---,p (18.3) 


通常 ， 拉 普 拉 斯 矩阵 (Laplacian matix) 是 描述 实体 间 成 对 关系 的 关键 工具 。 实际 上 , 它 
在 图 的 学 习 中 应 用 广泛 ,两 点 之 间 的 关系 通过 连接 它们 的 带 权 重 的 边 来 表示 。 通常 ， 它 是 
个 n xn 对 称 半 正定 矩阵 , 每 一 行 和 列 之 和 都 为 0。 通 过 拉 普 拉 斯 矩阵 可 以 很 容易 地 将 所 有 
成 对 平方 距离 的 加 权 和 通过 紧 凌 的 方式 表示 出 来 : 


a La =) -L(x — xj)? (18.4) 


i<j 


考虑 上 面 介绍 的 p 华 标 向 量 , 很 容易 验证 : 
Pp 
D(z TL = X` — Li (dist)? (18.5) 


i<j 

式 (18.3) 的 最 优 解 是 由 mm xm 的 和 矩阵 XT OY X 的 p 个 最 大 本 征 值 Ceigenvalue) 对 应 的 本 
征 向 量 Ceigenvector) 给 定 的 。 对 于 中 心 化 的 坐标 ,除去 一 个 乘 数 的 差别 (不 影响 本 征 问 量 )， 
该 矩阵 与 协 方差 矩阵 是 相同 的 : XTL*X = n25。PCA 的 解 是 通过 寻找 协 方差 矩阵 的 本 征 向 
量 得 到 的 。 我 们 在 上 面 的 形式 中 优先 使 用 拉 普 拉 斯 矩阵 ， 它 可 以 很 容易 地 泛 化 到 数据 点 之 间 
的 关系 存在 附加 信息 的 情况 。( 见 18.3 节 。) 虽然 本 节 中 不 给 出 细节 ， 但 是 本 征 向 量 涉及 将 问 
题 表 述 成 一 个 最 大 化 问题 : 需要 最 小 化 的 原来 的 量 是 二 次 的 , 梯度 为 零 以 及 满足 约束 条 件 即 
可 推导 出 线性 (本 征 值 ) 方程 。 
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Il 
un 
























































图 18-3. 主 成 分 分 析 ， 数 据点 分 布 在 一 个 椭 球 体 上 。 第 一 个 本 征 向 量 在 最 长 主轴 的 方向 上 ， 
即 沿 着 二 维 椭圆 最 长 的 轴 , 第 二 个 本 征 向 量 在 与 第 一 个 本 征 向 量 垂直 的 平面 上 
上 述 解 决 方案 有 一 个 副作用 , PCA 将 一 些 可 能 相关 的 变量 变换 为 数量 较 少 的 不 相关 的 变 
量 , 这 些 不 相关 的 变量 称 为 主 成 分 。 第 一 主 成 分 尽 可 能 多 地 占据 数据 中 的 可 变性 ， 并且 每 个 
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通过 线性 变换 降 维 (投影 ) 





随后 的 成 分 尽 可 能 多 地 占据 其 余 的 可 变性 。 PCA 的 另 一 个 有 趣 的 解释 





用 投影 来 近似 数据 时 所 产生 的 均 方 误差 。 


图 18-3 提供 了 一 个 在 三 允 
球形 的 云 ， 协 方差 矩阵 的 本 征 





散 方向 来 降低 维 数 。 


PCA 是 一 个 简单 的 、 非常 受 欢迎 的 转换 , 但 有 明显 的 局 限 (也 许 
行 坐 标 旋转 , 使 得 最 大 方差 
较 多 的 信息 内 容 , 例如 ， 也 可 

















形 的 云 状 点 集 拉 长 形状 。 此 外 ， 
FR. 与 大 部 分 其 他 点 相 


通过 乘 以 
择 合 适 的 物 到 











HIT 





fE jE] H 








癌 对 准 变换 后 的 多 











exe EK AW 





EE 噪声。 此 外 ， 一 个 4 








的 几何 解释 。 如 果 我 们 把 数据 点 想象 


是 , 它 最 大 限度 地 减少 





成 m 维 空间 中 椭 

















向 量 就 是 该 椭 球 的 主轴 。PCA 通过 将 注意 力 F 


因 








为 太 流行 了 )。 它 


民 制 在 云 的 最 大 分 








只 执 




















个 常数 来 增 大 ， 而 信 ， 








DAA SARA WR. Ri 























单位 : 即使 是 把 物理 





距离 测量 单位 | 
































E 很 远 的 点 页 献 了 大 的 (平方) 
群 值 被 消去 的 情况 有 很 大 的 不 同 。 监督 学 习 分 类 























H, 当 PCA 












































局 限制 在 于 没有 利用 属性 向 量 的 类 标签 。 最 大 方差 的 方向 } 








性 , 参见 第 7 章 有 关 属 性 选择 和 排序 的 内 容 。 


计算 成 本 与 求解 维 数 为 mxm 的 矩阵 的 特征 值 -此 
是 不 相关 的 , 因此 , 当初 始 坐标 数目 有 限时 , 这 个 方法 特 
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Ki 
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的 更 多 细节 可 以 在 参考 文献 [7 中 找到 。 


18.3 ”加 权 主 成 分 分 析 : 结合 坐标 和 关系 





下 如 前 面 




















定 。 例 如 
较 接 近 。 





好 在 我 们 可 以 扩展 PCA 方法 来 


权 和 : 





如 果 权 重 diy 很 大 ， 当 相应 的 dist? 也 很 大 时 ， 对 将 要 最 大 化 的 函数 的 贡献 也 会 很 大 。 然 后 ， 
相距 很 远 时 的 重要 性 , 称 为 相 寞 性 。 


’ 我 








们 可 能 有 











所 提 到 的 , 在 茶 些 情况 | 
个 类 标签 , 使 
或 者 , 除了 从 原始 数据 坐标 中 获得 的 信息 ， 














包含 更 多 的 信 


5 dij $ (dist?,)? 


i<j 





我 们 可 以 将 di; 解释 成 衡量 点 i 和 7 在 低 维 投影 空间 里 
就 像 在 未 加 权 的 情况 下 , 现在 可 以 给 这 个 问题 分 配 一 个 nx n 的 拉 普 拉 斯 矩阵 LA: 





而 且 和 矩阵 XTLAX 的 p 个 最 高 的 本 和 











一 些 点 对 在 同一 个 类 


县 。 例 如 

















E 标 轴 。 上 共有 较 大 方差 并 不 总 是 意味 着 具有 
标 上 的 方差 可 以 很 容易 地 
6 说 ,PCA 的 结果 取决 于 是 否 选 
米 换 成 训 米 这 样 简单 的 原 
由 于 式 (18.1) 的 优化 涉及 平方 距离 的 总 和 , PCA 对 离 群 值 敏 
E 离 ， 并 使 得 方向 向 量 的 选择 可 能 与 离 
用 于 识别 重要 的 特征 时 ， 
不 保证 包含 有 助 于 区 分 的 好 的 属 





因 ， 也 可 以 让 球 











HEH 





FE 向 量 问 题 相 关 。 请 注意 , 这 与 点 数 n 


NER, 即使 数据 点 的 数量 非常 大 。 PCA 








下 ,数据 的 附加 信息 以 (部 分 ) 实体 之 间 的 关系 的 方式 给 
P, 我 们 也 希望 它们 的 投影 距离 比 
我 们 还 可 以 有 附加 的 相 蜡 性 信息 。 








， 可 以 最 小 化 























Ss di; ”如 果 i = j 
一 dj 其 他 情况 














F 方 投影 距离 的 加 





(18.6) 








(18.7) 


EF 向量 给 定 的 方向 矢量 确定 了 最 优 投 影 。 
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我 们 
由 此 在 优 








将 相 异 性 





现在 可 以 使 用 相 异 值 来 创建 不 同 版 本 的 PCA. 在 归 














一 化 的 PCA 中 , qd;j = 1/disti j» 











化 中 大 大 缩短 了 原 距离 。 这 可 以 用 于 提高 原始 PCA 针对 离 群 值 的 健壮 性 。 









































点 的 距离 
员 的 关系 


18.4 











在 有 监督 的 PCA 中, 数据 拍照 所 属 的 不 同 的 类 来 标记 。 WR i 和 了 属于 同一 个 类 , 可 以 


diy 设置 为 小 值 o 反之 则 设 定 为 +。 权重 指导 着 投影 ， 而 投影 比 让 属于 不 同 育 类 的 
尽 可 能 远 要 更 重要 。 如 果 c 是 零 ， 那么 每 个 聚 类 的 内 部 结构 仅 间接 地 根据 聚 类 间 成 














设 定 。 


通过 比值 优化 进行 线性 判别 











数量 比值 的 优化 禹 来 了 考虑 类 标签 的 投影 数据 点 的 其 他 可 能 方法 。 显然 ,比值 的 最 大 化 


反映 了 分 
让 我 


子 最 大 化 和 分 母 最 小 化 之 间 的 折 中 。 











们 考虑 一 个 c 向 分 类 问题 , 标准 情况 是 有 两 个 输出 类 。 希 尔 分 析 找 到 一 个 向 量 vp， 























当 原 始 矢 
如 果 
个 很 好 的 分 
果 数 据 值 

















数值 被 混 














量 投影 到 该 向 量 上 时 , 不 同类 别 的 值 会 以 最 佳 的 方式 分 














投影 点 的 平均 散 度 (scatter) 归 一 化 , 而 投影 a ENA, 可 以 得 到 一 
离 。 通 过 散 度 来 区 分 对 应 于 这 一 直觉 , 即 重 要 的 不 是 均值 本 身 的 分 离 , 而 在 于 : 如 























都 离 它 们 的 均值 足够 近 , 那么 它们 的 类 可 以 被 清楚 地 
合 在 同一 区 域 ， oe ) 离 , 分 类 也 几乎 不 可 能 。 





























Sn 为 第 i AT 点 的 数量 , $ u 和 5; 分 别 为 均值 向 量 
































































































































分 开 。 如 果 数 据 分 散 使 得 大 多 








和 第 i 个 聚 类 的 有 偏 协 方差 矩 












































BE. FARE Swithin = iS na 是 类 内 平均 协 方差 矩阵 ， 而 矩阵 Sbetwen = = BS ag 是 类 间 
平均 协 方差 矩阵 。 = 
从 细节 上 来 说 ， 费 希 尔 线 性 判别 式 被 定义 为 线性 函数 y = xzTz, 它 最 大 化 下 面 的 这 个 比 
值 : 
ZITSbetweenz 
VT SwithinY ve 
考虑 最 大 化 类 间 与 类 内 散 度 的 比值 : 我 们 希望 最 大 程度 地 分 离 各 个 类 (比值 中 分 子 的 作用 , H 
中 依靠 均值 的 投影 )， 并 保持 聚 类 尽 可 能 紧凑 (比值 中 分 母 的 作用 )。 
可 以 证 明 , 费 希 尔 准则 的 最 大 化 对 应 着 下 式 的 最 大 化 : 
EE o (18.9) 
一 个 特殊 而 有 趣 的 二 分 类 例子 见 图 18-4, 特殊 化 上 述 方程 之 后 ， 费 希 尔 线 性 判别 式 被 定 
义 为 线性 函数 y = we, 它 最 大 化 下 面 的 准则 函数 : 








(18.10) 
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图 18- 





其 中 元 ; 是 投影 点 的 样本 均值 Mi 
,eciass,(V 一 7)?。 考 虑 最 大 化 类 间 与 类 内 总 散 度 的 比值 , 解 
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费 希 尔 线 性 分 类 模型 (三 j 





形 表示 


个 类 ， 
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区 














两 个 类 混合 在 一 块 了 , 而 右边 的 投影 通过 投影 
投影 点 





(1/ni) DEN Y» 3 

































































形 表示 另 一 个 类 ): AWRY 

















半 本 散 度 可 以 最 佳 地 分 玫 


F 这 两 个 类 的 











=] 








每 个 类 投影 样 


是 : 


RE 
































本 的 散 度 : 3 = 





wr = (Sw) (M — mz) (18.11) 
其 中 m; 是 第 i 类 的 d 维 样本 平均 值 ，S, 是 两 个 散 度 矩阵 5; 的 和 ,5; 定义 如 下 : 
S= >》 (zi 一 ril(zi 一 mm) (18.12) 
TEClassi 
费 希 尔 线性 预测 的 一 个 有 趣 的 应 用 是 用 于 神经 网 络 的 特征 选择 和 基于 监督 学 习 的 一 般 模 
型 建立 技术 。( 参 见 下 一 节 “ 用 于 特征 选择 的 费 希 尔 判 别 指标 ”。) 
用 于 特征 选择 的 费 希 尔 判 别 指标 
下 面 来 考虑 一 个 二 分 类 问题 (有 两 个 输出 的 类 ), 有 d 维 输入 向 量 。 费 希 尔 分 析 寻 找 向 量 
wF， 当 原来 的 矢量 投影 到 它 上 面 时 ,两 个 类 的 值 以 最 佳 的 方式 被 分 离开 。 该 方法 已 在 18.4 节 
中 介绍 过 。 

















让 我 们 回忆 一 下 , 如 果 以 投影 点 的 平均 散 度 来 归 一 化 ,而 投影 点 的 样本 均值 尽 可 能 不 同 
就 可 以 得 到 一 个 很 好 的 分 离 。 通 过 散 度 来 
而 在 于 : 如 果 数 据 值 者 
使 得 大 多 数值 被 混合 在 同一 





离 它们 的 均 1 























区 分 对 应 于 这 





fy AS 
Dis H 

















足够 近 , 它们 的 类 就 可 以 被 清楚 地 分 开 。 





























KER, 即使 均值 分 离 , 分 类 也 几乎 不 可 能 。 


现在 可 以 根据 式 (18.11) 及 式 (18.12) 中 定义 的 费 希 尔 向 量 wr 的 第 i 个 


判 特征 的 





FH 





要 4 


生 。 识别 费 希 尔 向 量 最 大 的 组 成 部 分 将 启发 式 地 确 

















分 类 








定 用 于 
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E 要 的 不 是 均值 本 身 的 分 离 ， 





如 果 数 据 分 散 





A, = 


分 量 的 大 小 来 评 
的 最 相关 的 方向 


18.5 费 希 尔 线性 判别 分 析 163 














《坐标 )。 换 句 话 说， 如果 一 个 坐标 向 量 的 方向 与 费 希 尔 向 量 方向 相似 , 那么 投射 到 给 定 的 坐 
标 轴 可 以 近似 地 用 于 分 类 ， 而 不 是 投影 到 原来 的 费 希 尔 向 量 。 注意 ,该 准则 是 经 验 上 的 而 不 
是 理论 上 的 ， 因为 它 是 基于 线性 投影 的 : 在 某 些 情况 下 ， 上 述 费 希 尔 准 则 排名 靠 后 的 特征 的 
非 线 性 组 合 在 分 类 中 可 以 做 得 很 出 色 。 

如 果 维 数 d 非常 大 , 式 (18.11) 中 的 矩阵 Su 的 逆 的 数值 求解 可 能 有 困难 ,第 一 个 度量 可 
能 不 足以 为 这 许多 特征 正确 排序 。 

一 种 更 简单 但 可 能 更 有 效 的 为 特征 排名 的 判 据 称 作 费 希 尔 判 别 指标 , 考虑 沿 特定 方向 
k 的 向 量 ex 处 处 为 零 ， 只 有 第 大 个 坐标 为 1), 它 测量 式 (18.10) 中 定义 的 “分 离 (w)” 值 。 
换 名 话说 , 我 们 想 测 量 只 考虑 给 定点 第 大 个 坐标 的 判别 。 





































































































































































































18.5 ” 费 希 尔 线性 判别 分 析 
上 述 原始 费 希 尔 法 由 在 找到 单一 的 方向 向 量 (单个 投影 )。 为 了 找到 p 个 方向 向 量 , 这 个 
想法 可 以 推广 到 费 希 尔 线 性 判别 分 析 (LDA) 这 一 常用 技术 , 它 基于 下 述 比值 的 最 大 化 : 
OY Sel 
a yy 
Pas DAOA (18.13) 
使 服从 (zejrsye = bag, a b= 5D 
E LDA 使 用 广泛 ， 但 就 像 基本 的 PCA， 它 对 离 群 值 很 敏感 ， 没有 将 类 的 形状 和 大 小 
考虑 在 内 。 更 灵活 的 推广 是 基于 最 大 化 以 下 形式 的 比值 : 
max does dis (disti) 
vi yP Ss sim,; (dist?,)? 
使 服从  (ve)TX*LSXV® = dog, a,b =1, p 
其 中 di 是 相 异 性 的 权重 , sim;; 是 相似 性 的 权重 (它们 表示 投影 中 两 个 实体 在 一 起 的 倾向 )， 
而 Ls 是 对 应 于 如 下 相似 性 的 拉 普 拉 斯 矩阵 


Sim;; 4 三 了 
m-f De a (18.14) 






















































































































































































将 (A, B) 的 广义 本 征 向 量 问 题 定义 为 Ar = 和 Bz 的 解 , 式 (18.13) 的 最 优 解 通过 (XT LAX, 
XTL°X) 的 p 个 最 高 广义 本 征 向 量 给 出 。 

除了 数学 细节 , 请 务必 记 住 ,找到 一 个 最 佳 的 投影 需要 以 定量 的 方式 来 定义 什么 是 最 优 。 
之 前 我 们 已 经 看 到 无 监督 方式 ( 仅 基于 坐标 ) 和 监督 信息 (基于 关系 ) 的 组 合 , 以 及 将 实例 放 
得 近 或 放 得 远 , 不 同 偏好 、 不同 权重 的 方法 。 
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S, 














当 用 户 把 聪明 才智 用 在 定义 优化 问题 上 时 ， 剩 下 的 就 是 由 相应 的 乘法 运算 来 推导 一 个 
mxm 的 矩阵 ,以 及 使 用 高 效 的 、 数值 上 稳定 的 方式 来 解决 一 个 m x m 的 矩阵 的 广义 本 征 向 
量 的 问题 。 当 然 ， 若 原始 坐标 数 m 是 有 限 的 ， 则 该 技术 是 非常 快 的 , 即使 要 投影 的 点 的 数量 
































FEK. 
























































有 趣 的 是 , 我 们 将 在 有 关 Web 挖掘 的 第 25 草 中 再 次 遇 到 本 征 向 量 , 用 于 网 页 排名 。 





EO M 


























体 视觉 , 就 是 三 个 维度 )。 





可 视 化 (抽象 数据 的 可 视 化 表示 ) 辅助 人 们 的 无 监督 学 习 能 力 , 以 从 数据 中 获取 知识 。 
由 于 可 视 化 是 为 我 们 的 视觉 系统 设计 的 , 它们 受 限于 我 们 视网膜 上 的 两 个 维度 COR 


由 ”合计 算 机 

















一 个 将 数据 转换 成 二 维 景象 的 简单 方法 是 通过 投影 。( 实 际 上 ， 如 果 是 























来 使 用 投影 点 , 投影 可 以 多 于 两 个 或 三 个 维度 。) 正 交 投影 可 以 直观 地 解释 为 从 不 同 距离 





















































于 有 数 不 清 的 方法 来 投影 数据 ,优化 就 派 上 用 场 了 , 通过 明确 的 目标 来 选择 其 中 一 
些 方法 。 特别 是 主 成 分 分 析 (PCA) 确定 一 个 正 交 投影 ， 它 使 得 投影 的 点 在 投影 平面 上 尽 




















意味 着 具有 最 多 的 信息 内 容 , 或 最 好 的 分 割 。 
































它们 可 以 用 于 修改 PCA， 以 获得 更 加 有 意义 的 投影 。 





内 散 度 的 比值 最 大 化 。 








用 投影 来 使 企业 更 加 成 功 ， 将 原始 数据 点 转换 为 珍贵 的 洞 见 。 





可 能 分 散 。 尽管 PCA 很 受 欢迎 , 但 它 可 能 无 法 给 出 相关 的 见解 : 具有 较 大 方差 并 不 总 是 
除了 原始 坐标 之 外 ， 如果 相互 关系 也 是 已 知 的 (例如 ,知道 某 些 点 在 相同 或 不 同类 )， 
当 类 标签 都 是 已 知 的 ， 费 希 尔 判 别 进行 数据 投影 ， 使 得 不 同类 别 的 投影 均值 的 差 与 类 


炼金 术士 使 用 投影 来 混合 粉 状 贤 者 之 石 与 燃 融 的 基本 金属 , 使 它们 变 成 黄金 。 你 可 以 
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没有 人 是 一 座 孤岛 ， 可 以 ees 全 .………. 任何 人 的 死亡 都 是 我 
的 损失 ,因为 我 是 人 类 的 一 员 ; ALAREN RAMS, CH 
At th , 


一 一 约翰 3B, 1623 








第 18 章 介绍 了 基于 线性 投影 的 可 视 化 ,现在 考虑 提高 无 监督 学 习 能 力 和 从 数据 中 获取 
洞 见 的 更 一 般 的 方法 。 假 定 要 展示 的 n 个 实体 不 一 定 由 内 部 坐标 表示 ， 而 是 仅 由 两 个 实体 i 
与 j 的 项 与 项 之 间 ( 即 外 部 的 ) 关系 表示 , 例如 相 异 性 qi;;。 如 果实 体 确实 有 坐标 , 外 部 关系 
可 以 通过 如 15.2 节 中 所 解释 的 简单 的 方法 来 获得 。 

然而 , 在 一 般 情 况 下 , 外 部 相 异 性 度量 不 能 作为 距离 来 计算 , 并 且 可 能 无 法 为 每 一 对 实体 
都 提供 度量 。 针对 这 种 情况 , 一 个 合适 的 模型 是 无 向 加 权 图 GV, E), 由 一 组 顶点 (或 节点 )V 
AIL ECV xV 确定 。 每 个 实体 由 一 个 节点 表示 ， 并 且 两 个 节点 之 间 的 连接 (i, 7) 被 标记 为 
dijs 当 且 仅 当 相应 实体 间 的 相 异 性 被 定义 ， 如 图 18-1 所 示 。 我 们 假设 相似 性 为 正 , 但 不 考虑 
任何 其 他 的 假设 (如 三 角 不 等 式 )。 例如 , 市场 上 两 种 产品 之 间 的 相似 性 ， 可 以 通过 对 客户 进 
行 抽样 ,并 要 求 他 们 在 给 定 分 值 范围 内 来 评估 产品 相似 性 而 得 到 。 
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19.1 最 小 应 力 可 视 化 





根据 眼睛 的 工作 方式 ， 可视化 仅 存 在 于 二 维 或 三 维 中 。 




















因此 , 我 们 的 目的 是 将 实体 放 在 





一 维 平面 上 (或 三 维 空间 中 ), 使 得 它们 之 间 的 相互 距离 尽 可 能 接近 其 相 异 性 。 在 一 般 情况 下 ， 























一 个 服从 所 有 相 异 性 的 完美 放置 是 不 可 能 的 。 基 























一 个 明确 的 标准 。 








此 , 为 了 确定 哪些 放置 是 可 以 接受 的 ,需要 





因此 , 接 下 来 的 问题 是 : 给 定 一 组 实体 之 间 





























的 〈 正 ) 相 异 性 dj， 找到 所 有 实体 的 二 维 或 

















三 维 的 坐标 p;, 使 得 实体 便于 放置 , 并 尽 可 能 保持 原始 相 异 性 。 最 简单 的 方法 是 应 力 最 小 化 ， 
应 力 是 相对 于 原 相 异 性 由 可 视 化 引起 的 相 异 性 压缩 或 拉 伸 。 这 一 方法 是 直观 的 、 物 理 的 和 实 






































用 的 , 也 是 了 解 其 他 更 为 复杂 的 方法 的 起 点 。 















































起 见 ， 下 面 来 考虑 二 维 可 视 化 。 
令 05 = yP: — pj)" (P; — Pj) 为 实体 i 和 
全 局 映射 误差 可 以 定义 为 个 体 平方 误差 的 总 和 : 


XO (di; 


(i, j)EE 



































j 在 平面 














个 直接 的 误差 度量 可 以 量化 为 平面 上 的 距离 相对 于 原来 的 相 异 性 有 多 大 差距 。 为 简单 


上 的 坐标 之 间 的 距离 。 一 个 自然 的 








一 0) 





缺失 的 边 (相应 的 点 对 没有 赋予 相 异 性 的 值 ) 对 误差 没有 贡献 。 可 以 通过 添加 任意 的 权重 wij 
来 获得 额外 的 灵活 性 , 权重 wig 表示 个 体 误差 对 总 体 应 力 的 影响 : 


























(i,j)EE 














全 局 映射 误差 = 应 力 = 5 wij (dij — 5:3)? (19.1) 











例如 , 若 wig = 1/qd%， 人 们 考虑 的 则 是 相对 误差 (6i; 一 dij)/di;， 而 不 是 绝对 误差 。 (H wiz = 1 


是 默认 值 















































个 精确 的 解决 方案 能 重 现 所 有 原始 相 异 性 diy = di;， 并 绑 得 零 误差 。 低 误差 值 意味 着 

















许多 距离 往往 与 原始 距离 相当 接近 。 换 言 之 , 现在 这 个 问题 是 通过 改变 点 的 位 置 p;， 以 最 小 























化 全 局 映射 误差 测量 。 我 们 有 在 二 维 中 放置 每 个 点 的 完全 自由 ,导致 优化 问题 的 维 数 非常 大 ， 
等 于 实体 数目 的 两 倍 。 现在 的 情况 与 第 18 章 不 同 ， 当 时 我 们 用 一 个 线性 投影 进行 映射 。 


























最 小 化 以 上 全 局 映射 误差 有 一 个 相关 的 物 型 























LE 模 型 ， 这 也 解释 了 目前 为 何 广泛 使 用 术语 应 








力 来 称呼 被 最 小 化 的 函数 。 每 对 点 之 间 由 一 个 弹簧 连接 , 松弛 时 长 度 等 于 dyo 也 就 是 所 期 望 
的 距离 ， 弹 性 常数 〈 抗 形变 能 力 ) 等 于 权重 wijo D wig (dig 一 dig)? 可 以 认为 是 弹簧 相对 于 松 

















弛 长 度 被 拉 长 或 压缩 而 形成 的 势能 。 各 点 的 初始 位 置 可 以 随机 选取 , 而且 移动 被 约束 在 二 维 











力 浮 数 达 到 一 个 局 部 最 优点 。 























中 。 系 统 将 开始 振荡 ,如果 存在 一 些 摩 擦 , 振荡 将 逐渐 衰减 ， 从 而 使 状态 趋 于 稳定 , 整体 的 应 





当然 , 物理 系统 可 以 用 一 台 计 算 机 模拟 ,从 而 形成 所 谓 力 控 制 的 绘制 图 形 方式 。 基 于 这 
种 方式 的 方法 包括 两 个 主要 组 件 。 第 一 个 是 量化 绘图 (或 二 维 映 射 ， 如 果 你 喜欢 更 技术 化 的 
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术语 ) 质量 的 模型 。 第 二 个 是 基于 该 模型 的 用 于 计算 局 部 最 优 图 形 的 优化 方法 。 最终 得 到 的 
布局 使 系统 达到 平衡 ， 因 此 每 个 顶点 的 合力 为 零 , 或 等 价 地 ,顶点 的 位 置 使 势能 达到 局 部 极 
小 值 。 

如 果 你 不 喜欢 物理 , 但 是 喜欢 数学 ,你 可 以 筷 掉 摩擦 力 这 样 的 物理 细节 ,而 专注 于 通过 
梯度 下 降 法 来 最 小 化 应 力 函 数 : 计算 偏 导数 , 使 用 优化 方法 , 达到 全 局 最 优 解 。 再 说 一 次 ， 优 
化 是 力量 之 源 ! 

图 19-1 是 可 视 化 的 例子 , 它 展 示 了 对 不 同类 型 的 登山 活动 感 兴趣 的 朋友 的 社交 网 络 。 图 
19-2 展示 了 一 个 议员 的 社交 网 络 ,根据 他 们 议会 活动 的 相似 性 自动 可 视 化 。 注 意 主要 政治 团 
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图 19-1 应 力 最 小 化 的 二 维 可 视 化 
PET riea- ieina oe w a 20| 8 
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图 19-2 ”社交 网 络 分 析 : 美国 议员 的 可 视 化 网 络 。 两 个 政党 〈 从 聚 类 软件 无 法 得 到 ) 呈现 出 
非常 不 同 的 两 个 类 别 ( 男 见 彩 插 ) 
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体 是 如 何 自动 聚 类 的 , 这 是 鼓励 将 相似 的 人 放 在 相似 位 置 的 一 个 有 趣 的 副作用 。 通 过 一 个 焦 
点 和 上 下 文 的 可 视 化 , 可 以 关注 一 个 政治 家 (焦点 ) 周围 的 局 部 连接 网 络 , 也 可 以 看 全 部 连接 























CUA 19-3) 给 出 的 情境 。 因此, 很 容易 就 能 从 实体 导航 到 邻居 ,再 到 邻居 的 邻居 等 ， 以 同样 





































































































快速 有 效 的 方式 来 追踪 复杂 的 关系 。 这 种 方法 的 为 一 种 可 能 的 应 用 是 犯罪 侦 伍 。 











图 19-3 浏览 政治 社交 网 络 : 一 个 政治 家 的 网 络 


19.2 ”一 维 情况 : 谱 图 绘制 








一 个 典型 的 例子 是 , 将 一 组 n 个 点 映射 到 一 维 , 同时 保持 相似 的 点 之 间 尽 可 能 靠近 。 像 往 
常 一 样 , 需要 定义 想 要 最 小 化 的 那个 量 , 这 涉及 一 维 映射 的 优 度 。 令 zi 为 分 配给 点 i 的 一 维 



































坐标 (让 z 表示 所 有 这 类 的 坐标 向 量 )。20 世纪 70 年 代 首 次 提出 的 霍 尔 能 量 (Hall's energy), 


计算 式 如 下 : 
1 


Egan = 3 





点 对 之 间 的 相似 性 为 权重 将 这 些 平方 值 求 和 。 当 wig 很 大 时 ，(zi — xj)? 这 一 项 对 函数 Evan 
有 很 大 的 贡献 ， 因 此 该 定义 鼓励 把 类 似 点 放 垦 
过 霍 尔 能 量 , 相似 性 高 的 点 对 就 能 被 放置 帮 
































n 


5 wij (Ti — 25)" (19.2) 


i, j=1 


此 式 的 解释 是 将 各 个 距离 求 平方 (使 得 该 函数 可 微 , 并 且 该 微分 可 得 出 线性 方程 )， 并 以 





























EE 一起， 以 避免 严厉 的 惩罚 , 即 大 的 Enan 值 。 通 


























EA 





目 近 的 地 方 。 
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现在 暂停 一 下 ,看 看 上 述 定义 和 解释 中 的 一 个 严重 的 缺点 。 现 在 可 以 完全 目 由 地 为 每 个 
点 选择 一 个 坐标 x;， 这 样 就 能 通过 选取 非常 小 的 坐标 (或 非常 相似 的 坐标 ) 使 能 量 趋 近 于 零 ， 
但 只 给 我 们 留 下 了 一 个 平凡 解 : 所 有 点 都 映射 到 相同 的 位 置 。 这 个 定义 可 以 修复 ， 因 为 我 们 
感 兴趣 的 不 是 坐标 的 绝对 值 ， 而 是 相对 值 。 通 常 优化 的 绘图 不 应 该 依赖 于 选择 米 或 毫米 为 单 
位 。 因此, 我 们 可 以 将 z 向 量 的 长 度 固定 为 1, 于 是 问题 变 为 : 


最 小 化 | 5 Wis (Ti = sP) (19.3) 


(4,j)€B 



















































































使 服从 (æl? =a a= Xr? =1 (19.4) 


{=l 
为 了 方便 , $ N(i) = {51i j) € E} AWA i IRE, degli) = Djeng wig 为 加 权 度 。 一 
且 定 义 了 一 个 图 相关 的 拉 普 拉 斯 矩阵 LC: 


Le = deg(t) t= (19.5) 























就 可 以 得 到 霍 尔 能 量 Evan = a7 Loa. 

能 量 和 约束 上 共有 平移 不 变性 。 我 们 可 以 消除 这 个 自由 度 , BIS z 的 均值 为 零 : Di zi = 
zl, 二 0( 其 中 向 量 1。 是 全 部 为 1 的 向 量 )。 最 后 , 一 维 优化 分 布 可 以 用 以 下 带 约束 最 小 化 
问题 的 解 来 描述 : 
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最 小 化 aT Lx 
ate =1 
Ti, =0 
通过 标准 的 优化 和 线性 代数 的 结果 ， 只 要 图 是 连通 的 ， 所 得 能 量 的 最 小 值 就 是 所 谓 的 代 
数 连 通 度 , BLS 的 第 二 小 的 本 征 值 Xi (LO 是 奇异 和 矩阵， 因此 其 最 小 本 征 值 Ao = 0)， 同 时 
其 解 为 对 应 的 本 征 向 量 vo 也 称 为 费德勒 向 量 (Fiedler vector)。 这 一 结果 是 优雅 的 , 值得 拥 
有 一 个 鼓舞 人 心 的 名 称 : 谱 图 绘制 , 或 光谱 分 布 。 AE “TR” (spectral) 与 幽灵 和 芍 怖 电影 无 
KRO, 而 与 物理 学 中 的 本 征 向 量 和 本 征 值 相 关 , 它们 用 于 研究 由 一 个 辐射 源 (频谱 ) 发 射 的 能 
量 和 振动 模式 的 分 布 等 。 
但 对 于 一 维 以 上 的 空间 ， 就 做 不 到 优雅 了 。 让 我 们 称 第 二 个 维度 为 y。 一 个 平凡 的 推广 是 
使 得 第 二 个 向 量 坐 标 y 与 z 相同, 但 不 是 很 有 收获 : 所 有 点 都 会 排列 在 对 角 线 上 , 而 不 是 一 个 
真正 的 二 维 图 。 为 了 得 到 更 有 用 的 结果 , 我们 必须 强制 解决 方案 中 的 y 坐标 与 x 坐标 不 同 。 
一 个 合理 的 要 求 是 令 这 两 个 坐标 向 量 不 相关 (yTz = 0)， 从 而 使 附加 的 维 数 能 给 我 们 一 
些 新 信息 “新 ”是 指 它 不 线性 相关 先前 的 值 ， 不 是 某 个 深层 的 信息 论 含 义 。 现 在 关于 y 的 问 


® spectral 也 有 “幽灵 般 的 “鬼魅 的 ”“ 无 形 的 ”的 意思 。 


使 服从 | 

















































































































































































































译 者 注 
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题 就 变 成 了 : 
最 小 化 yT Loy 
y'y=1 
使 服从 y'1, = 
yiz=0 
潜在 的 困难 是 如 何 解 决 非常 大 的 本 征 向 量 问题 。 用 于 计算 主 本 征 向 量 的 多 标 度 技术 和 迭 

















代 技 术 可 以 提供 帮助 。 
尽管 以 著名 的 线性 代数 结果 来 最 小 化 简单 函数 





的 做 法 很 优雅 , 但 这 不 能 保 记 
性 对 应 用 户 的 喜好 。 尤 其 是 该 方法 有 可 能 将 太 多 节点 靠 得 太 近 ， 以 至 于 几乎 看 不 清 ， 




















FE 分布 的 美观 
因为 这 











方面 没有 规定 禁止 。 此 外 , 也 无 法 保证 y 坐标 对 应 最 佳 的 美学 效果 ,， 因 其 不 相关 。 














现实 世界 中 的 分 布 通常 需要 能 量 (需要 最 小 化 的 
过 定义 一 个 明太 
关注 中 分 离 出 去 。 通 过 优化 技术 , RIIE 



































> 可 以 得 到 





19.3 ”复杂 图 形 分 布 标准 


的 简单 图 连接 矩阵 ， 

















考虑 下 面 其 中 两 个 节点 i 和 


0 1 0 
101 
0 1 0 
该 年 阵 对 应 于 一 个 有 3 个 节点 的 图 , 其 唯一 要 求 是 ， 


di2 = d23 = 1 



































从 应 力 最 小 化 方法 的 角度 来 说 , 图 








WAAL ANAT A 3 之 间 ) 则 表明 ， 如 果 需 要 进行 优化 的 











点 之 间 的 相互 昌 





E 离 是 无 关 紧要 的 。 





=o 
ve 
we 


2 
图 19-4” 当 几乎 不 存在 限制 时 ， 最 小 





的 能 量 ， 人 们 可 以 将 对 目标 《所 需 的 布局 特征 ) 的 关注 从 对 如 何 达到 目标 上 




















KZO, 设计 成 与 特定 的 偏好 相 吻 合 。 通 











近似 的 目标 。 





AL g 








j 连接 ， 仅 当 和 矩阵 项 (i,j) 为 1: 














节点 2 到 另外 两 个 节点 距离 都 是 1: 


19-4 所 示 的 分 布 都 是 完全 等 效 的 : 若 边 不 存在 〈 例 如 ， 


Ab 1 


用 里 . 


函数 仅 包含 有 关连 接 的 项 ， 相 应 





1 
化 应 力 的 几 种 等 价 形式 
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当 一 个 大 图 存在 许多 无 关 紧 要 的 节点 对 时 , 情况 就 会 更 糟 。 图 19-5 显示 了 一 个 30 x 30 
的 矩形 点 阵 , 其 中 只 定义 了 最 邻近 的 边 (要 求 节点 之 间 的 距离 是 单位 距离 )。 图 19-6 显示 了 通 
过 最 小 化 式 (19.1) 获得 的 “最 优 ” 分 布 。 许 多 退化 的 局 部 最 优 分 布 是 存在 的 。 它 们 可 以 通过 类 
似 棋 盘 的 方式 , 交 蔡 使 用 黑色 和 白色 节点 来 获得 , 使 黑色 节点 仅 连 接 到 白色 节点 , 反之 亦 然 。 
一 个 一 维 的 解决 方案 , 是 将 所 有 黑色 节点 放 在 z = 0, 所 有 白色 节点 放 在 x = 1,， 这 样 就 能 满 
足 所 有 的 距离 限制 ,使 式 (19.1) 中 定义 的 全 局 映射 误差 为 零 。 


































































































图 19-6 一 个 最 小 化 应 力 视角 下 的 “最 优 ” 分 布 , 但 不 是 理解 网 络 结构 的 最 优 形式 
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通过 为 未 连接 的 节点 引入 一 个 默认 的 较 大 距离 , 可 以 轻松 解决 这 个 问题 图 19-7 显示 了 
在 同样 的 30 x 30 点 阵 上 的 最 优 分 布 , 它 是 由 式 (19.1) 获得 的 ， 其 中 断 开 的 节点 和 了 需要 
较 大 的 距离 dij = 20, 还 有 非常 小 的 权重 wij = 10-5。 可 以 观察 到 , 由 于 该 分 布 先 验 上 是 未 知 
的 ,常常 很 难 确定 一 个 合适 的 默认 距离 。 例 如 图 19-7 中 , 对 于 保持 正确 的 分 布 , 20 这 一 值 过 
小 ,， 它 会 使 整个 图 形 弯 曲 成 球形 。 































































































图 19-7 ”限制 缺失 的 第 一 种 解决 方案 : 引入 默认 的 互 斥 力 








第 二 种 方法 ,如 图 19-8 所 示 , 是 通过 最 每 路径 的 计算 补充 距离 矩阵 。 所 有 非 直接 连接 的 
节点 间 的 距离 设置 为 等 价 于 节点 之 间 的 最 短路 径 长 度 。 例如 图 19-5 所 示 的 点 阵 中 , 节点 1 和 
32 之 间 有 一 个 最 短路 径 , 长 度 等 于 2 (一 横 边 加 一 纵 边 )。 如 果 没 有 复制 最 短路 径 距 离 的 要 求 ， 
就 没有 什么 能 禁止 节点 1 和 节点 32 在 可 视 化 中 被 放置 得 非常 近 。 一旦 这 个 要 求 被 激活 ， 这 
种 不 好 的 行为 会 受到 严厉 的 惩罚 , 节点 则 倾向 于 分 散 , 从 图 19-6 的 结构 变 成 图 19-8 的 结构 。 
注意 ,该 最 小 路 径 距 离 总 是 比 网 格 分 布 中 的 欧 几 里 得 距离 要 大 。 作 为 一 个 例子 , 在 两 个 
对 角 极 端 节点 1 和 节点 900 之 间 的 最 短路 径 的 距离 为 (30 一 1) :2 = 58, 而 在 网 格 分 布 中 欧 几 
里 得 距离 的 期 望 是 (30 —1)- V2 = 41.01, 因此 图 19-8 是 个 枕 形 分 布 。 

根据 额外 的 审美 标准 ， 可 以 最 小 化 更 复杂 的 函数 生成 不 同 结构 的 图 ， 比 如 最 小 化 交叉 边 
的 个 数 、 保 证 连接 一 个 点 的 边 的 最 小 夹 角 (小 夹 角 的 可 读 性 差 )、 或 者 允许 曲 边 的 存在 等 方案 ， 
本 章 就 不 在 此 罗列 了 。 在 所 有 情况 下 ， 当 定量 地 定义 好 一 个 平衡 各 种 理想 美学 标准 的 合适 的 
折 中 方案 后 , 我 们 就 可 以 寻找 一 个 有 效 的 最 小 化 算法 (力量 的 来 源 ), 在 很 多 情况 下 意味 着 寻 
找 一 个 近似 但 高 效 的 算法 。 
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图 19-8 ”限制 缺失 的 第 二 种 解决 方案 : 通过 计算 最 短路 径 补充 距离 矩阵 











E M 


图 形 分 布 技术 可 用 于 可 视 化 实体 之 间 的 关系 。 

如 果 相 异性 是 已 知 的 , 在 二 维 空间 里 绘制 实体 , 使 得 类 似 的 项 彼此 接近 ,对 于 识别 组 
CRR) 和 组 间 的 关系 是 重要 的 。 

应 力 最 小 化 诉 诸 某 种 物理 模型 。 每 个 相 寞 性 值 为 n 维 实体 之 间 迁 了 一 根 弹 筑 。 目标 是 
通过 挤 压 将 网 络 “ 夹 入 ”到 一 个 平面 上 , 同时 最 小 化 各 弹 算 的 伸 长 或 缩短 程度 。 顺便 说 一 
下 ,如 有 果 弹 筑 被 刚性 杆 取代 , 挤 压 就 会 变 得 不 可 能 : 一 般 来 说 ,不 存在 点 映射 到 平面 且 保 
持 所 有 相 腊 性 值 不 变 的 精确 解 。 如 果 你 将 每 个 点 想象 成 参加 聚会 的 人 , 那么 每 个 人 都 在 地 
板 上 移动 , 远离 讨厌 的 人 , 靠近 喜欢 的 人 。 每 个 人 同时 都 在 移动 , 可 能 会 让 聚会 《可 视 化 ) 
变 得 非常 紧张 (次 优 )。 

MPR, 没有 绝对 最 优 的 图 (或 网 络 ) 分 布 。 通 过 优化 定义 目标 “最 优 分 布 ”的 定 
ER OO 的 一 个 函数 , 然后 确定 最 大 化 它们 的 最 可 能 的 映射 。 在 确定 合适 的 可 视 化 方案 之 
前 ， 人 们 经 常 尝 试 多 种 可 能 性 。 

社交 网 络 分 析 被 用 来 研究 相互 作用 的 人 之 间 的 网 络 。 在 企业 中 , 员工 之 间 的 相似 性 可 
以 通过 他 们 相互 收发 信息 的 数量 来 确定 。 如 果 你 用 这 个 指标 来 设计 员工 网 络 的 分 布 , 你 很 
容易 就 能 识别 在 一 起 工作 的 同事 的 罕 类 ; 不 同 群 体 之 间 的 连接 可 能 会 稀 玻 一 些 ， 而 有 些 看 
似 不 合群 的 人 , 也 许 非常 专注 , 也 许 更 喜欢 打 电 话 , 也 许 ”对 工作 不 太 上 心 吧 。 


























































































































第 20 章 半 监 督学 习 


心灵 是 用 来 点 燃 的 火 ， 而 不 是 一 盘 用 来 装 满 的 船 。 
一 一 普 卢 塔 克 











考虑 第 17 章 中 无 监督 学 习 提 到 的 国际 机 场 的 例子 : 你 走 过 一 个 登 机 口 , 注意 到 说 着 不 同 
语言 的 人 们 分 别 聚 集 在 一 起 ， 即 使 你 不 知道 语言 的 名 称 。 如 果 现 在 能 够 确定 某 些 语言 ， 比 如 
有 人 挥舞 着 国旗 或 者 穿着 他 们 国家 的 传统 服饰 ,那么 我 们 可 以 只 选择 那些 已 标记 的 人 ， 然 后 
运行 监督 学 习 算法 将 语音 特性 映射 到 语言 。 
现在 的 问题 就 是 : 是 否 可 以 使 用 未 标记 实例 中 的 信息 来 改进 语言 归 类 ? 我 们 注意 到 聚 在 
一 起 的 人 们 往往 说 同一 种 语言 “羽毛 相同 的 乌 聚 集 在 一 起 ” )， 并 且 如 果 同 一 聚 类 中 的 至 少 
一 个 成 员 说 这 种 语言 , 可 以 尝试 以 相同 的 语言 来 标记 一 些 语言 未 知 的 人 。 如 果 这 一 假设 为 真 ， 
将 大 大 增加 实例 的 数目 ， 并 且 可 以 提高 训练 的 分 类 器 的 整体 泛 化 能 力 。 例 如 ， 幼 儿 与 他 们 的 
年 长 的 已 确定 语言 标记 的 父母 聚 类 在 一 起 ,并 且 可 以 被 添加 到 数据 库 中 ,这 样 即 使 是 年 轻 人 
的 声音 (通常 频率 更 高 ) 也 可 以 被 正确 地 分 类 。 

以 类 似 的 方式 , 人们 可 以 使 用 一 些 有 标记 数据 , 来 协助 无 监督 学 习 和 聚 类 。 这 是 半 监 督学 
习 的 基本 思想 : 使 用 已 标记 的 实例 , 以 及 (一些) 未 标记 的 实例 ,以 提高 整体 的 分 类 准确 率 。 
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如 果 假 设 有 效 ， 那 么 对 于 已 标记 实例 稀缺 和 未 标记 实例 丰富 的 所 有 情况 ,会 得 到 一 个 非 





常 有 价值 的 性 能 提升 。 想 想 网 页 上 的 例子 : 人 工 制作 的 标签 是 非常 昂贵 的 ， 只 有 很 小 一 部 分 
网 页 被 标记 。 相 反 ,， 有 大 量 的 未 标记 网 页 ， 并 且 数 量 还 在 不 断 增 长 。 
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监督 数据 进行 学 习 
半 监 督学 习 (semi-supervised learning, SSL) 同时 使 用 

















| WA 








督 和 无 监督 的 数据 ， 以 提高 性 
督 的 标准 形式 是 一 些 实例 上 的 标记 。 在 这 种 情况 下 ， 训 练 集 X 被 分 成 已 标记 的 部 





能 。 监 
分 Xr = {zx1,… ,;z1} 《它们 的 标记 Yr = {yr mw} 是 给 定 的 ) 以 及 未 标记 的 部 分 Xv = 
{T141 > Titu} o 

其 他 形式 的 监督 的 可 以 与 提供 给 系统 的 约束 或 提示 联系 起 来 自 。 例 如 ， 提 示 可 以 采取 的 
形式 是 “输出 函数 必须 随 着 一 个 输入 坐标 的 增加 而 增加 ”, 而 限制 可 以 是 “这 两 点 必须 在 同一 


类 中 ”( 必 须 链 接 ) 或 “这 两 个 点 不 能 在 同一 个 类 

一 个 初步 的 想法 起 源 于 20 世纪 60 FEARS, 即 所 谓 的 
用 一 个 监督 学 习 方法 。 该 方法 
加 的 未 标记 的 实例 通过 使 用 当前 训练 得 到 的 系统 进行 标记 ， 并 通 














法 反复 使 















































复学 习 。 人 们 可 以 启发 式 地 尝试 给 实例 添加 标记 ， 使 该 标记 具有 最 高 的 置信 度 。 
力 , 但 所 述 包 装 算法 的 效果 取决 于 所 选 的 监 ; 
的 上 下 文 , 作为 直 推 学 





Vapnik Pg 











预测 函数 适用 于 任意 的 输入 ， 但 是 直 











动用 所 有 可 用 信 ， 














了 一 个 与 SSL 相关 








H” GREHE). 
自学 习 或 自 标记 方法 ， 
开始 是 在 已 标记 的 实例 上 进行 学 习 。 然后， 一些 



































{中 包装 算 
Si 
过 新 添加 的 已 标记 实例 来 重 
虽然 有 吸引 
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BEI, 并 
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Eo 通常 ， 





























练 实例 , WAZA 
最 大 化 。 


一 般 情况 下 ， 
就 很 有 和 希望。 类比 于 监督 学 习 中 的 平滑 





如 果 关 于 密度 p(z) 


段 设 
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条 路 径 连 接 (它们 
HASAN BES A A 


留学 习 等 同 于 聚 类 ， 


ry 











BAM T o 
聚 类 假设 是 说 ， 如 果 两 个 点 都 在 同一 个 聚 类 中 , 那 











么 它们 很 可 能 


时 于 同一 类 。 











这 种 情况 


F, EA 





不 ; 





Hae 目标 记 何 时 有 效 。 














昌 似 性 / 相 异 性 的 关系 或 约束 。 执行 对 标记 的 组 合 优 化 可 以 使 全 


的 无 监督 信息 在 推导 p(y|zx) 时 有 用 ,那么 SSL 看 起 来 
， 半 监督 的 平滑 假设 是 说 ， 如 果 高 密度 区 域 中 的 
两 个 输入 点 zz 和 za 彼此 接近 ,相应 的 输出 yy 和 yo 也 应 接近 。 根据 传 递 性 ， 如 果 两 个 点 
高 密度 区 域 中 的 一 
密度 区 域 中 , 对 输 

如 果 我 们 将 无 监 














习 。 我 们 希望 通过 归纳 学 习 得 到 的 
的 目标 只 在 于 预测 一 套 固 定 的 测试 点 ， 而 这 需要 
推 学 习 是 基于 数据 的 标记 图 表示 ， 已 标记 的 节点 是 已 分 类 的 训 











局 一 致 性 





度量 






































PARAS, 那么 它们 的 输出 应 该 接近 。 如 果 是 在 低 











间 的 边界 , 进而 提升 满足 上 述 假设 的 整体 分 类 。 
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是 低 密度 分 离 假 设 : 














该 不 会 分 开 
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如 图 20-1 所 示 。 





上 述 假设 与 
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国际 机 场 的 类 比 关 系 非常 密切 : 如 果 一 个 人 想 区 分 不 同 的 语言 ,他 最 好 不 要 
开 聚 在 一 起 的 人 , 而 要 在 空白 

















区 域 绘制 边界 。 


不 同类 别 之 间 的 边界 应 该 处 于 低 密 度 区 域 ,3 


未 标记 的 点 有 助 于 以 更 高 的 准确 率 来 找到 聚 类 
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图 20-1 ， 低 密度 分 离 假设 。 尽 管 界限 A 能 完全 区 分 两 类 , 但 是 界限 B 更 好 , 因为 它 穿 过 了 一 
个 低 密度 区 域 。 未 标记 的 数据 会 产生 一 个 更 好 的 分 类 器 


还 有 一 种 不 同 的 范例 ， 假 设 数据 近似 地 处 于 一 个 低 维 流 形 上 ， 如 图 20-2 所 示 。 流 形 
(manifold) 是 一 种 数学 空间 ， 它 在 足够 小 的 标 度 上 ， 类 似 于 一 个 特定 维 数 的 欧 几 里 得 空间 ， 
这 一 维 数 称 为 流 形 的 维 数 。 例 如 , 一 条 线 和 一 个 圆 是 一 维 流 形 , 一 个 平面 和 一 个 球面 ( 球 的 表 
面 ) 是 二 维 流 形 。 更 正式 地 说 , 一 个 n 维 流 形 的 每 个 点 有 一 个 邻 域 同 胚 于 n 维 空间 R* 上 的 
一 个 开 子 集 。 先 确定 一 个 流 形 可 以 避免 维度 诅咒 〈 非 常 高 维 的 输入 数据 )， 大 多 数 数据 都 在 这 
个 流 形 上 。 然 后 流 形 上 的 测 地 线 距离 给 出 一 个 合适 的 度量 , 并 且 在 这 个 低 维 流 形 上 考虑 标准 
的 平滑 性 假设 。 如 果 有 更 多 的 可 用 数据 ， 人 们 就 能 更 好 地 识别 应 用 于 监督 学 习 中 的 相关 流 形 
和 相应 的 度量 〈 例 如 最 近邻 分 类 器 , 所 说 的 邻近 度 是 通过 流 形 上 的 测 地 线 距离 给 出 的 )。 















































































































































图 20-2 ” 测 地 线 距离 可 以 帮助 我 们 区 分 在 一 个 流 形 上 的 两 类 
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20.1.1 低 密度 区 域 中 的 分 离 


一 些 SSL 的 技术 的 基础 是 激励 类 之 间 (决策 边界 ) 的 分 离 通 过 低 密 度 区 域 ， 并 远离 大 多 
数 数据 实例 。 

一 个 直接 的 算法 可 通过 采用 类 似 SVM 的 边缘 最 大 化 算法 得 到 , 无论 是 已 标记 还 是 未 标 
记 的 实例 ， 它 都 会 最 大 化 边界 ， 这 就 是 所 谓 的 直 推 SVM (TSVM)。 被 最 小 化 的 函数 需要 加 
上 如 下 一 项 ; 







































































2 > G-I) oe 
未 标记 数据 ; 

CA flr) 是 分 类 函数 ， 其 值 大 于 1 时 属于 一 类 , 小 于 -1 时 属于 另 一 #6) = 0 
该 函数 引入 的 惩罚 是 A 并 且 当 zi) 变 为 1 时 ， 或 者 在 另 一 peaks 当 flay) EH —1 
时 , 它 线性 地 变 为 0 (惩罚 是 以 0 为 中 心 的 三 角形 式 ) 。 换 句 话 说， 如 果 未 标记 的 数据 点 落 在 
“灰色 ”边界 区 域 里 ， 即 |f) < 1， 就 会 导致 惩罚 : 无 标记 的 数据 往往 会 引导 线性 边界 线 远 
离 密集 区 域 。 对 应 的 问题 是 非 凸 的 ， 因 此 必须 采用 健壮 的 启发 式 优化 方案 ， 例 如 确定 性 退火 
(deterministic annealing) 策略 , 它 从 一 个 简单 的 问题 开始 , 并 逐步 将 其 转化 成 TSVM 优化 函 
数 [991， 或 者 参考 文献 [35] 中 的 延续 方法 , 它 按照 类 似 的 范式 : 首先 优化 该 函数 的 “简化 ” 版本， 
然后 逐渐 引入 越 来 越 精细 的 细节 。 
20.1.2 ”基于 图 的 算法 


基于 图 的 方法 依赖 于 将 问题 表示 成 图 ， 其 中 节点 对 应 于 实例 , 边 以 两 个 节点 i 和 的 成 
对 相似 性 wi; 为 标记 。 像 往常 一 样 , 我 们 可 以 从 相似 性 的 角度 , 也 可 以 从 相 异 性 /距离 的 角度 。 

两 点 沿 流 形 的 测 地 距离 的 近似 值 ， 可 以 通过 从 初始 成 对 距离 导出 点 对 之 间 的 最 短路 径 距 
离 得 到 。 

接 下 来 引入 矩阵 W 表示 相似 性 , 若 边 存在 ， WW Wi, = wi, PUA, AFCA RERE 
阵 D 使 得 Dis = 0, wij。 

激励 轻 边 的 平滑 性 (连接 的 节点 相似 则 平滑 ) 的 基本 方法 , 与 定义 和 使 用 图 的 拉 普 拉 斯 
算 子 相关 。 归 一 化 的 C 和 非 归 一 化 的 组 合 图 拉 普 拉 斯 算 子 工 定义 为 : 


L=I1-D PWD"? (20.2) 
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L=D-—W (20.3) 


图 的 拉 普 拉 斯 算 子 可 以 追溯 到 更 传统 的 拉 普 拉 斯 算 子 〈 表 示 为 V?)， 用 于 连续 函数 
f(£1, > En): 




















V20 = ae at (20.4) 


事实 上 ， 点 阵 的 拉 普 拉 斯 矩阵 ， 当 应 用 于 顶点 上 的 值 时 ， 对 应 于 点 的 规则 网 络 上 的 连续 算 
子 的 有 限 差分 近似 。 图 的 拉 普 拉 斯 矩阵 可 以 看 作 点 阵 定义 的 一 般 化 。 
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函数 了 在 点 zx 上 的 拉 普 拉 斯 算 子 Vfl) 等 于 一 个 与 维度 相关 的 常数 ， 是 函数 f 在 以 
2 为 中 心 的 球面 上 的 平均 值 随 着 半径 的 增加 而 偏离 f(x) 的 速率 。0 表示 这 个 球面 上 的 平均 值 
等 于 中 心 的 函数 值 。 
拉 普 拉 斯 算 子 出 现在 物理 学 中 的 动机 是 , V?f = 0 的 在 一 个 区 域 0 内 的 解 是 使 狄 利 克 雷 
能 量 泛 函 (Dirichlet energy functional) 稳定 的 函数 : 


1 
BA) = 5 /lv 
平滑 行为 是 显然 的 : 人 们 旨 在 找 出 局 部 最 优 配置 ， 来 最 大 限度 地 减少 梯度 模 的 均 方 。 从 
优化 的 角度 我 们 再 次 澄清 了 意义 。 


为 点 阵 上 的 上 述 Vf = 0 方程 求解 的 迭代 方法 ， 是 对 于 点 阵 中 的 每 个 点 ， 反 复 地 以 它 的 
邻居 的 加 权 平 均值 来 代替 它 的 值 。 


图 上 也 可 以 有 类 似 的 平滑 行为 ,我们 的 目标 是 得 到 的 图 上 的 值 的 分 布 ， 以 使 得 在 节点 处 
的 值 等 于 其 相 邻 值 的 加 权 平 均 。 













































































2dz (20.5) 

















































































































图 20-3 ”通过 图 中 相 邻 点 的 平均 值 计 算 未 知 点 的 值 















































参考 文献 120] 中 提出 了 一 种 采用 高 斯 场 和 谐 波 函数 的 半 监 督学 习 。 高 斯 场 的 分 类 算法 可 
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以 看 作 最 近邻 方法 的 一 种 形式 , 其 中 最 接近 的 已 标记 实例 是 由 一 个 图 中 的 随机 游 走 来 计算 。 这 
一 方法 的 公式 涉及 电子 网 络 和 谱 图 理论 。 该 问题 表示 为 图 ， 其 中 一 些 节 点 标记 为 ye 0,1 (为 
简单 起 见 ， 采 用 二 进 制 标记 )。 加 权 边 表示 相似 性 : wis 会 很 大 ， 如 果实 例 类 似 。 例 如 wij = 
exp{ 一 ||zi — z3} 就 是 一 个 合适 的 度量 。 该 策略 先 计 算出 所 有 节点 的 一 个 “平滑 ” 实 值 函数 
f， 然后 基于 了 值 赋予 标记 。 相 似 点 具有 相似 的 值 , 这 一 “平滑 ”的 愿望 表示 为 最 小 化 二 次 能 
HERR BL: 








































































































BN) = 5 wal SO - FUP (20.6) 


最 小 能 量 函 数 是 和 谐 的 : 对 于 未 标记 的 点 ， 它 满足 Lf = 0; 对 于 已 标记 的 点 ， 则 等 于 其 标记 
的 值 。 工 是 之 前 定义 的 图 上 的 拉 普 拉 斯 算 子 , 而 和 谐 的 特性 意味 着 f 在 未 标记 的 点 上 的 值 等 
于 相 邻 点 f 值 的 加 权 平 均 : 

E wij f (i) 


HEERKE: f = Pf, 其 中 P= DW., 这 与 相似 关系 中 的 平滑 的 直观 概念 是 一 致 的 。 图 
20-3 展示 了 基于 图 的 平滑 操作 。 
个 简单 的 规则 是 , 若 f(a) > 1/2， 则 将 节点 i 标记 为 1， 否则 为 0。 

与 随机 游 走 的 联系 如 下 : 想象 一 个 行走 的 人 从 一 个 未 标记 的 节点 i 开始， 并 以 概率 Pij 
移动 到 邻近 点 j。 遇 到 第 一 个 已 标记 点 时 , 游 走 停止 。 于 是 , f(i) 是 停止 在 一 个 标记 为 1 的 节 
点 的 概率 。 

电子 网 络 解释 如 下 : 标记 为 1 的 节点 连接 到 正 电压 源 , 标记 为 0 的 节点 接地 。 边 是 电导 
为 wi; 的 电阻 。 然后 f 是 未 标记 的 节点 上 产生 的 电压 , 使 得 能 量 耗 散 最 小 化 。 把 类 的 先 验 知 
VA (这 两 个 类 的 理想 的 比例 ) 通过 修改 节点 标记 的 阔 值 加 入 。 参 考 文献 [120] 中 描述 了 从 已 标 
记 和 未 标记 的 数据 中 学 习 权 重 和 矩阵 W 的 可 能 方法 。 


20.1.3 “学习 度量 
一 些 半 监督 算法 按 两 个 步骤 进行 : 首先 通过 对 所 有 数据 (忽略 标记 的 存在 ) 的 无 监督 步骤 

来 确定 一 个 新 的 度量 或 表示 法 , 然后 使 用 新 确定 的 度量 或 者 表示 法 来 执行 纯 监 督学 习 阶 段 。 
这 两 个 步 又 实际 上 是 在 实现 半 监 督 平 滑 假 设 ,通过 确保 新 的 度量 或 表示 满足 在 密度 高 的 

区 域 距离 小 的 条 件 。 

注意 ， 某 些 基于 图 的 方法 与 这 种 处 理 方式 密切 相关 : 根据 数据 进行 图 的 构建 ， 可 以 看 作 

一 个 无 监督 的 表示 法 变化 。 

20.1.4 ”集成 约束 和 度量 学 习 


许多 情况 下 ， 当 处 理 有 一 个 以 上 变量 的 优化 问题 时 ， 可 以 采用 序列 方法 。 它 首先 针对 第 
一 个 变量 求 最 小 值 , 然后 针对 第 二 个 变量 (保持 第 一 个 变量 不 变 ), 等 等 。 相 比 于 同时 考虑 所 
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有 这 些 变量 ， 这 种 序列 方法 给 出 的 结果 一 般 都 需要 改进 。 这 一 点 很 清楚 ,因为 同时 考虑 所 有 
变量 使 得 在 输入 空间 移动 的 自由 度 增 加 : 第 一 种 情况 下 ,只 能 沿 着 坐标 轴 移 动 ; 第 二 种 情况 
下 , 可 以 自由 地 在 输入 空间 内 移动 ， 寻找 局 部 最 优点 。 

这 同样 适用 于 SSL. 例如, 参考 文献 [24 中 的 工作 展示 了 如 何 结合 约束 和 度量 学 习 来 进行 
半 监 督 聚 类 。 

基于 约束 的 聚 类 方法 从 点 对 之 间 的 必须 链接 或 禁止 链接 的 约束 〈 即 两 个 点 属于 或 不 属于 
同一 个 聚 类 的 要 求 ) 开始 , 在 需要 最 小 化 的 目标 函数 中 加 入 违反 约束 的 惩罚 。 顺 便 说 一 下 , 约 
束 可 以 来 自 标记 , 也 可 以 来 自 其 他 信息 源 。 例如 ， 欧 儿 里 得 K 均值 算法 将 点 分 成 k 组 , 使 得 


函数 
Yo læ: pl 


局 部 极 小 化 。 其 中 , 向 量 py, 是 点 x; 所 属 聚 类 的 中 心 点 ,， 即 到 xz; 最 近 的 那个 。 

如 果 知 道 必须 链接 点 对 AM 和 禁止 链接 点 对 C 这 两 个 集合 ， 就 可 以 激励 一 个 满足 约束 的 
中 心 点 的 摆 放 ,只 要 违反 了 At 中 的 茶 个 约束 ， 就 加 上 惩 避 wij; 同 理 , REEI C 中 的 某 
个 约束 ,就 加 上 惩罚 wi;, 这 样 就 得 到 以 下 需要 最 小 化 的 函数 (“成 对 约束 KK 均值 ”): 


Epckmeans = » |æ; 一 Hl ||? + 5 Wij + 5 Wij (20.8) 


(wi,aj )EM AL Al; (w;,2;)€C Hli=l; 


成 对 约束 也 可 用 于 度量 学 习 。 如 果 以 对 称 正定 矩阵 A 参数 化 度量 如 下 : 
































































































































































































































læ: — zila = V(ri— z;)T A(z; — 2) 


问题 就 变 成 了 确定 矩阵 系数 的 相应 值 。 如 果 该 矩阵 是 对 角 德 阵 ， 问 题 就 变 成 了 确定 不 同属 性 
的 权重 。 

约束 代表 用 户 对 相似 性 的 看 法 : 通过 最 小 化 必须 链接 的 实例 间 的 距离 ， 同 时 最 大 化 禁止 
链接 的 实例 间 的 距离 ,相似 性 可 以 用 来 改变 度量 ， 以 反映 这 种 观点 。 度量 被 修改 之 后 ， 人们 可 
以 使 用 像 K 均值 这 样 的 传统 聚 类 算法 。 

要 求 在 整个 空间 中 使 用 单个 度量 也 许 是 不 恰当 的 , 对 于 每 个 K 均值 聚 类 h, 可 以 用 不 同 
的 度量 A,。 参 考 文献 [24| 中 的 MPCK-MEANS 算法 采用 期 望 最 大 化 方法 ， 见 15.3 节 , 也 改变 
T EDR (期 望 步骤 ) 的 聚 类 分 配 , 以 及 M 步骤 (最 大 化 步骤 ) 的 中 心 点 估计 和 度量 学 习 。 

约束 在 聚 类 初始 化 以 及 把 数据 点 分 配给 聚 类 时 使 用 。 每 次 欠 代 期 间 ， 基 于 当前 聚 类 分 配 
和 约束 违反 的 情况 , 距离 度量 通过 重新 估算 An 进行 调整 。 参考 文献 [75] 是 一 篇 有 趣 的 讨论 文 
本 文档 的 度量 学 习 的 论文 。 关于 半 监 督学 习 的 更 多 细节 可 以 在 参考 文献 [36] 和 参考 文献 [119] 中 
找到 。 
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许多 情况 下 ， 已 标记 的 实例 稀缺 且 难 得 ,未 标记 的 实例 却 很 多 ,它们 平时 沉睡 在 商业 
数据 库 里 或 网 页 上 。 

半 监 督学 习 方 案 同时 使 用 可 用 的 已 标记 实例 和 未 标记 实例 ， 以 提高 整体 的 分 类 准确 
率 。 

所 有 实例 的 分 布 可 以 用 于 激励 ML 分 类 方案 , 从 而 创建 类 别 之 间 的 罕 过 低 密度 区 域 的 
边界 〈 直 推 SVM). 

如 果 问 题 以 图 来 建 模 (实体 和 以 距离 标记 的 关系 )， 图 上 的 平滑 操作 可 以 用 来 使 一 些 
已 标记 节点 的 信息 传送 到 相 邻 节点 〈 图 的 拉 普 拉 斯 算 子 )。 

实例 的 分 布 可 以 用 于 学 习 一 个 度量 ， 而 度量 是 继续 进行 监督 学 习 的 关键 组 成 部 分 。 

一 个 外 星人 到 了 地 球 上 , 在 征服 我 们 之 前 ， 可 以 先 结合 网 页 上 不 计 其 数 的 信息 ， 加 上 
从 人 类 笔友 (或 像 雅虎 一 样 的 目录 ) 那里 获得 的 一 些 已 标记 信息 ， 以 密集 的 方式 学 习 了 解 
人 类 文明 。 地 球 上 的 企业 使 用 类 似 的 技术 来 挖掘 数据 和 征服 更 多 的 客户 。 
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我 要 去 走 走 一 一 在 这 个 世界 上 ; 
直到 我 的 脚 一 一 不 再 让 我 走 下 去 ; 
是 的 , 我 就 是 要 去 走 走 一 并 将 走 得 更 远 。 


一 一 梅 西 BEAMS RAE 
































很 多 问题 都 可 以 转换 成 替 一 个 合适 的 目标 函数 寻找 最 优 值 的 问题 ， 当 然 是 在 某 些 约束 的 
前 提 下 。 如 果 你 正 准 备 买 房子 ,你 会 有 预算 和 一 些 目标 ， 比 如 房间 数 、 邻 里 情况 、 景 致 、 离 工 
作 地 点 的 远近 、 学 校 等 。 如 果 你 正在 寻找 一 个 伴侣 , 你 的 目标 可 能 会 是 智慧 、 美 丽 、 在 一 起 的 
感受 等 。 如 果 你 正在 经 营 一 个 公司 ,在 给 定 人 力 资源 和 设备 等 约束 的 前 担 下 ， 你 会 把 目标 定 
在 最 大 限度 地 提高 利润 ”你 可 能 会 注意 到 ,定义 适当 的 目标 函数 ， 这 本 身 就 不 是 一 份 简单 
的 工作 〈 想 想 你 对 于 伴侣 的 偏好 函数 )。 然 而 ， 一旦 完成 了 这 个 关键 的 前 期 工作 , 剩 下 的 重任 
就 是 最 小 化 或 最 大 化 这 个 函数 。 这 个 函数 将 自 变量 映射 成 输出 值 。 最 大 化 意味 着 找到 使 得 输 
出 值 最 大 的 输入 值 。 

函数 的 优化 方法 是 解决 大 多 数 问题 和 进行 决策 的 力量 之 源 。 这 一 重要 性 有 些 时 候 很 明显 ， 
有 些 时 候 又 没 那么 明显 , 无 论 如何 ， 我 们 都 有 合理 的 动机 去 理解 这 些 基 本 思路 和 工具 。 这 一 
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主题 对 于 学 习 和 智能 优化 (LION) 方法 尤其 有 意义 , 因为 LION 结合 了 数据 挖 据 、 建 模 和 交 
互 式 问 题解 决 和 优化 。 虽然 使 用 该 技术 之 前 ,底层 的 方法 并 不 是 非 知道 不 可 的 , 但 掌握 这 些 
基础 有 助 于 更 快 和 更 有 效 地 做 出 选择 。 

现在 考虑 以 下 相关 问题 。 

。 非 线性 方程 组 的 问题 , 即 求解 一 组 非 线性 方程 组 (所 有 函数 f; 都 包含 在 向 量 已 里 ): 



























































给 定 FR" — R” 
求 z* ER” 使 得 F(x*)=0¢€R” 








|K 




















若 解 z* 存在 , 则 它 最 小 化 于 (所 (2))?。 这 是 显而易见 的 ,因为 平方 和 非 负 ， 并 上 
LAAN, CEPR. 
。 无 约束 的 最 小 化 ; 


























给 定 f: R" —R 
求 x* € R” 使 得 对 于 任意 ze 了 ”满足 f(x*) < f(z) 











满足 上 述 条 件 的 一 个 点 z* 被 称 为 全 局 最 优 , 根据 定义 , 它 是 该 问题 最 有 可 能 的 解 : 不 

存在 更 好 的 其 他 解 。 

本 章 中 会 介绍 带 有 连续 变量 (实数 ) 的 优化 函数 的 一 些 基 本 和 传统 的 方法 ， 并 演示 它们 

的 收敛 性 。 

如 果 你 不 喜欢 数学 ,你 可 能 想 跳 过 这 一 部 分 而 继续 下 面 的 内 容 。 下 面 的 章节 更 务实 ,会 

谈论 离散 问题 的 局 部 搜索 和 反馈 搜索 优化 (第 22 章 的 RSO), 连续 和 合作 优化 的 RSO (第 23 
章 的 CoRSO) 以 及 多 目标 优化 的 RSO (第 24 章 的 MORSO)。 


















































21.1 ”优化 和 学 习 


学 习 和 优化 技术 之 间 有 很 强 的 联系 。 

一 方面 是 把 优化 用 于 学 习 ， 从 一 类 模型 中 选择 与 数据 最 为 一 致 的 那个 〈 最 能 解释 观察 到 
的 数据 那个 )。 例如 , 常用 于 曲线 拟 合 和 监督 学 习 的 “ 差 的 平方 和 ”。 当然 ,学习 的 最 终 目的 是 
泛 化 ,但 这 仅 意 味 着 需要 被 最 小 化 的 函数 将 包含 更 多 部 分 ,考虑 到 模型 的 复杂 度 ， 因 此 简单 
的 模型 比 复 杂 的 模型 更 受 青睐 。 

另 一 方面 是 把 学 习 用 于 优化 ， 某 些 形式 的 学 习 也 用 于 高 效 优化 算法 。“ 学 习 ” 方 式 的 基 
本 例子 ， 虽 然 发 明 者 没有 使 用 这 个 术语 ， 但 可 以 在 连续 优化 的 标准 技术 中 找到 。 这 些 技术 中 
构建 了 局 部 模型 (通过 使 用 函数 及 其 导数 的 局 部 信息 得 到 ), 它 的 合法 性 被 限制 在 当前 点 周围 
(模型 信赖 域 法 )。 无 论 模型 还 是 信赖 域 (trust-region) 通常 都 通过 寻找 局 部 极 小 来 调整 。 
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虽然 这 些 技术 传统 上 与 连续 优化 相关 联 , 但 同样 的 原理 一 一 通过 优化 学 习 一 个 局 部 模型 
(或 者 根据 实例 和 局 部 特性 调整 的 参数 ) 一 一 可 以 用 于 不 同 的 离散 (组合 ) 优化 , 参见 第 22 章 
所 描述 的 局 部 搜索 和 反馈 搜索 优化 RSO) 技术 B, 

很 多 方法 的 主旨 (leitmotiv) 是 从 一 个 试探 性 的 解 开 始 ,通过 一 系列 步骤 进行 修改 , 从 而 
找到 最 终 解 。 在 每 一 个 步骤 里 , 我 们 为 被 优化 的 函数 构建 一 个 局 部 模型 ， 并 将 这 个 模型 用 于 
局 部 移动 , 对 试探 性 的 解 进行 微调 。 因 此 ,该 方法 缺乏 大 局 观 , 不 能 保证 收敛 到 全 局 最 优 。 然 
而 在 实践 中 ， 虽 然 有 局 部 极 小 值 的 存在 〈 会 使 得 局 部 搜索 器 卡 住 )， 但 瑕 不 掩 瑜 ， 梯 度 下 降 、 
局 部 搜索 以 及 其 他 相关 技术 仍然 可 能 是 最 简单 和 最 成 功 的 解决 问题 的 方法 。 
现在 来 看 , 在 连续 函数 中 , 一 个 从 给 定 实例 的 优化 中 习 得 的 灵活 ( 带 参数 ) 局 部 模型 的 原 
理 如 何 起 作用 。 下 面 各 节目 的 是 让 大 家 见识 连续 优化 的 最 基本 和 最 成 功 的 范例 , 重点 在 于 直 
觉 而 非 数 学 细节 。 数 学 细节 可 在 参考 文献 [42] 中 找到 。 
此 时 需要 区 别 将 被 最 小 化 的 函数 的 可 导 性 。 在 现实 世界 中 ,函数 大 多 是 不 可 导 的 , 事实 
上 许多 例子 中 输入 与 输出 的 对 应 关系 是 非 连续 的 , 或 者 输入 就 是 离散 的 (比如 整数 )。 如 果 尝 
试 询问 一 个 商人 其 利润 的 导数 ， 以 作为 重要 业务 决策 的 函数 , 估计 你 将 得 不 到 任何 答案 ! 

如 果 你 恰好 要 处 理 一 个 实数 函数 f(z), 并 且 它 是 连续 可 微 的 , 那么 可 以 使 用 一 系列 标准 
方法 。 下面 首先 特别 总 结 了 一 维 的 最 优化 方法 (21.2 节 ), 然后 回顾 了 多 维 空间 下 最 优化 模型 
的 求解 技巧 (21.3 节 ), 最 后 介绍 了 使 用 求解 模型 技术 来 最 优化 多 变量 非 线 性 函数 (21.4 节 )。 
如 果 你 不 巧 要 处 理 一 个 不 能 求 导 的 函数 ,那么 你 可 以 跳 过 前 几 节 ,只 使 用 基于 函数 计算 
的 方法 , WR 21.5 节 或 者 第 23 章 和 第 24 章 中 介绍 的 方法 。 


















































































































































































































































21.2 ”基于 导数 技术 的 一 维 情 况 


维 的 情况 可 能 更 加 直观 ， 因 此 我 们 先 考虑 一 些 一 元 函数 的 经 典 结果 。 一 个 历史 悠久 并 
继续 影响 当今 的 找到 可 微 函数 f(z) 零点 的 基本 方法 , 是 从 一 个 离 目标 值 足够 近 的 点 开始 , 进 
行 如 下 两 个 步骤 的 迭代 : 

(1) 找到 一 个 局 部 可 解 模型 ; 

(2) 解 这 个 模型 。 
围绕 当前 点 ze 的 局 部 模型 可 以 由 前 三 项 的 泰勒 级 数 近似 〈Taylor series approximation) 
得 到 : 






























































f(a) = f(ze) + f' (te) (x Le) | Ae Dawi 





或 者 通过 牛顿 定理 : 





fla) = flee) + | Podex fa) + Fe) z) 


21.2 基于 导数 技术 的 一 维 情况 187 











因此 ,围绕 当前 估计 ze 的 一 个 局 部 模型 (实际 上 是 仿 射 模 型 ) 是 : 








M.(2) E f(ze) 十 Fé ja = Te) 


寻找 这 一 模型 的 根 ， 人 们 能 够 得 到 当前 估计 对 应 的 下 一 个 值 z+ 的 式 子 (从 ze 到 zy 的 
步骤 )， 如 图 21-1 所 示 : 














局 部 




















图 21-1 牛顿 法 的 局 部 模型 


如 果 函 数 是 线性 的 ,收敛 就 可 以 一 步 完成 。 如 果 函 数 不 是 线性 的 ， 让 我 们 来 学 习 和 牛顿 法 
的 局 部 收敛 Cocal convergence) PER: 证 明 ,， 如 果 从 一 个 离 根 足够 近 的 点 ze 开始 , 那么 总 会 
收敛 到 这 个 根 。 这 个 证 明基 于 对 模型 的 线性 性 缺失 限制 (bounding the lack of linearity), 以 及 
每 一 步 都 会 使 当前 点 距 目 标 根 的 距离 减少 (contracted ) 。 

线性 性 的 缺失 , 或 者 使 用 该 模型 造成 的 误差 是 : 












































fla) -Ms)= f = 





现在 需要 限制 函数 值 的 变化 , 令 其 正比 于 其 输入 的 差异 。 
定义 1 (Lipschitz continuity， 李 普 希 茨 连续 性 ) ”一 个 函数 g 是 以 常数 y 在 集合 X 上 
李 普 希 茨 连 续 的 (9 E Lip,(X) ) 如 果 对 所 有 r,yEeX, A: 





lo(z) — gly)| < ylz — yl 


引 理 1 假设 f'e Lip (D) 定义 在 开 区 间 D 上 . 那么 对 于 任意 的 x,y EX: 


(x-y)? 


2 





f(y) — f(@) - Fey- asy 
证 明 


自动 改进 的 局 部 方法 





根据 三 角 不 等 式 和 李 普 希 欧 


欧 连 续 性 ; 





1 
<lu—al f Mti- a)ldt = ry 22 
现在 可 以 证 明 一 维 牛 顿 法 的 收敛 定理 。 图 21-2 可 以 























甫 助理 解 这 个 证 明 。 





l 
仿 射 模型 误差 ”一 一 ”| 
~Ja- a*|*2 | 





图 21-2” 当 起 始点 zo 离 z” 很 近 时 , 可 以 保证 收敛 
定理 1 在 开 区 间 DŁ, f:D—R, fl € Lipy(D) ( 李 普 希 英 连 续 性 ), ED 
E, |f'(x)| 之 p (导数 有 一 个 离开 零点 的 界 ). 


如 果 f(x) = 0 有 一 个 解 z* E D 并 且 起 始点 zo RABI, 那么 这 个 解 可 以 用 牛顿 法 找到 。 
如 果 存 在 > 0 使 得 |zo — 2*| <m 那么 序列 


ee f(zx) 


f'(zx) 
存在 并 且 收 敛 至 r* AM, 





er 
证 明 “找到 一 个 起 始 的 球 Chall) 满足 ; 





|ek+1 — £*| < Tzk — x*|> 7 € (0,1) 


这 也 意味 着 点 将 留 在 这 个 球 内 : 





rı 一 g= To x f (xo) 
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制 在 Zeo — x*|?. FALE, 





E z* 上 的 误差 被 限 





其 中 基于 zo 的 仿 射 模型 在 
* Y 
ea 21S Fe) 








ja < aslo °F 








如 果 起 |zo 一 好 | <1, 或 者 
2 
|zo — z*| < are 
~ 
一 个 半径 为 


P (可 能 缩小 以 适合 区 间 D) 


2 
=o. 
= 








F HURA 











距离 就 会 缩小 ， 











的 球 开始 , 距离 也 会 缩小 。 
上 面 的 定理 确保 了 一 个 快速 (二 次 ) 收敛 , 前 提 是 从 一 个 距离 目标 根 足 够 近 的 位 置 开始 。 
fe， 情况 会 是 如 此 ; 然而 , 一 般 来 说 开始 的 位 置 是 非常 远 的 , 并 
步骤 之 后 会 最 终 得 到 目标 解 。 
Ph， 由 于 缺乏 强 有 力 的 保 记 


如 果 已 经 得 到 了 足够 好 的 近似 解 
是 无 法 保证 这 一 起 始点 经 过 这 些 
这 一 问题 是 全 局 收敛 global convergence)» ILK Y 
时 就 用 牛顿 法 ， 和 否则 就 回 到 某 个 相对 较 慢 但 是 安全 


多 方法 混合 起 来 ， 当 牛顿 法 可 行 
法 ， 比 如 二 分 法 (bisection)， 如 图 21-3 Aras 









































E, WOKE AR 
的 全 局 方 
















































































图 21-3 ”二 分 法 示意 图 





二 分 法 通过 将 一 个 起 始 区 间 《〈 从 lo 到 ro) 细 分 为 两 部 分 来 寻找 一 个 连续 函数 的 根 , 过程 
HOMES f 在 中 间 点 的 值 , 并 且 只 继续 搜寻 左 或 右 子 区 间 《〈 当 然 要 确保 所 选 的 子 区 间 包 含 根 )。 
二 分 法 简单 而 有 效 ， 并 且 它 在 一 个 对 数 步骤 内 收敛 。 然 而 ,这 一 简单 的 方法 很 难 扩展 到 一 维 
以 上 的 情况 。 

图 21-4 描述 了 回溯 (backtracking) 的 思想 : 如 果 牛 顿 法 的 步骤 走 得 太 远 ,超过 了 根 的 区 
域 ， 就 可 以 调转 方向 回 到 离 根 更 近 的 位 置 。 我 们 从 点 zw 朝 着 起 始点 ze 移动 , 直到 找到 z+ 


BETS | f (2+) < |f(zo)|。 
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图 21-4 ERI: 牛顿 法 的 每 一 步 都 有 方向 















































混合 方法 的 一 个 通用 模式 是 结合 全 局 收敛 性 和 局 部 快速 收敛 性 ， 如 图 21-5 所 示 。 我 们 可 
以 首先 尝试 牛顿 法 的 步 又 , 但 要 确保 这 一 迭代 减少 距离 解 的 某 种 度量 。 




















Im 











1. function hybrid_quasi_newton (f : R > R, zo 

2. [ while not 结束 

3. | 构造 z 附 近 的 局 部 模型 f， 并 找到 它 的 一 个 解 Zw 
4 

5 








if Zk+1 可 接受 then 移动 
else 用 一 个 安全 的 全 局 策略 选择 Tk+1 


图 21-5 混合 拟 牛 顿 法 示意 图 


























21.2.1 ”导数 可 以 由 割 线 近似 

如 果 导 数 无 法 计算 或 很 难 计算 ,那么 可 以 用 通过 这 两 个 点 的 割 线 (secant) 近似 (以 一 个 
有 限 差分 近似 )。 这 一 割 线 法 使 用 前 一 近代 e 如下: 

_ f(xe) = f(z-) 
Te— T 

对 此 ,有 一 个 收敛 定理 成 立 , 虽然 收敛 速度 现在 慢 一 些 (线性 ) 

定理 2 ”对 于 开 区 间 D, & f: D —R, f € Lipy(D) (F RR) Æ D 
E, F| p FRA- -NERF EAA). 

如 果 方 程 f(z) = 0 有 一 个 解 zx c D, 那么 存在 正常 数 n,m 使 得 ， 如 果 0 < |h <y E 
lzo 一 zx <m WAPI 























q- 线性 性 收敛 至 r* 
我 们 认识 到 ， 基 于 导数 的 方法 可 以 用 作 开 发 无 导数 的 方法 的 起 始点 。 这些 近似 会 辆 性 
些 效率 , 但 收敛 还 是 可 以 保证 的 。 


























21.2.2 ”一 维 最 小 化 


直到 现在 , 我 们 都 在 讨论 求 根 , 使 得 函数 /的 值 等 于 零 。 为 了 最 小 化 一 个 可 导 的 函数 , 我 
们 从 这 个 必要 条 件 开始 “: 最 小 值 必须 满足 f'(z*) = 0。 所 有 的 工作 就 是 找到 导 函 数 的 一 个 
AR, 并 且 我 们 已 经 知道 了 如 何 解决 这 一 问题 ! 可 以 用 混合 牛顿 法 , 加 上 要 求 fer) 递减 。 用 一 
阶 导数 f RE RIR RZ f， 可 以 得 到 : 














































































































f'(xe) 
f" (Ze) 


ES f 的 仿 射 模型 隐 含 着 f 的 一 个 围绕 ze 的 二 次 模型 : 





Ly = Le 一 

















mela) = Flee) + §' (we) e = ae) + Sf" te) w= ae)? 

















RoE EPCS PU, 并 且 如 果 a) £0 Af” 在 xw* PA EEE AKA LE, 那么 
Q- 二 次 收敛 到 xz*。 如 果 有 必要 , FY LY f(a) < f (xe) 








21.3 ”求解 高 维 模型 (二 次 正定 型 ) 














采用 局 部 二 次 模型 进行 优化 之 前 ,让 我 们 把 动机 变 得 更 强 , 确保 这 些 局 部 模型 其 实 是 可 
以 解决 的 。 现 在 考虑 多 元 函数 。 解决 局 部 二 次 模型 相当 于 解决 一 个 二 次 型 。 图 21-6 展示 了 二 
WEW (quadratic positive-definite form) 的 一 个 例子 。 

现在 ,牛顿 法 要 求 该 模型 的 梯度 等 于 零 。 给 定 一 步 s, 对 应 的 二 次 模型 是 : 


= Yona OY Hys sj =g Tsp at Hs 


i=1 j=l 














求 得 梯度 以 后 , 我 们 要 求 : 





VQ(s) = 0=9 十 五 s (21.1) 
Hs = -g (牛顿 方程 ) (21.2) 


一 线性 方程 组 可 以 通过 对 一 个 复杂 度 为 O(n3) 的 矩阵 求 逆 来 求解 。” 
































© 充分 条 件 是 4”(z*) > 0 ,比如 使 用 带 余 项 的 泰勒 展开 式 : 











f(a) — f(z*) = f'(a*)(@ — x*) 4 sf" (Bla a*)? 











@ 实际 上 ,如 果 使 用 更 细 粒 度 的 技术 , HEBER BH Hy 2 ARE AY Dy O(nlega 7")， 甚 至 更 小 。 但 由 于 复杂 度 和 数值 计算 
的 问题 , 实际 上 通常 不 会 使 用 这 种 方法 。 
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于 计算 机 的 计算 精度 有 限 ， 需 要 处 理 数值 稳定 性 (numerical stability) 问题 : 一 些 技术 
会 积累 误差 .这 一 现象 很 危险 , 很 可 能 使 得 得 到 的 数值 解 与 精确 的 数学 解 ( 只 有 当 计 算 机 可 
以 用 无 限 精 度 来 表示 实数 时 才 可 计算 ) 非常 的 不 同 。 

病态 (ill-conditioning) 是 用 于 度量 数值 解 对 数据 变化 的 敏感 程度 (由 于 有 限 精度 的 计算 ) 
的 术语 。 图 21-7 展示 了 一 个 二 维 的 例子 〈 两 个 相似 的 方程 对 应 平面 上 几乎 平行 的 直线 )。 




























































































图 21-6 ”含有 两 个 变量 的 二 次 正定 型 f 

















solution 1 





人 solution 2 








图 21-7 ”病态 : 数值 解 对 于 数据 变化 非常 敏感 , 该 图 中 两 个 线性 方程 十 分 相似 , 稍微 改变 线 的 方 
向 将 会 极 大 地 影响 数值 解 














从 细节 上 来 说 ， 人 们 给 矩阵 H 定义 了 条 件数 KH) = || AIA ||, 其 中 || « || 是 由 向 量 





范 数 HI = max, (| 
比值 。 它 度量 除去 其 








He\l/||xl|) 导出 的 矩阵 算 子 范 数 。 条 件数 是 H 导出 的 最 大 与 最 小 拉 人 
他 影响 之 外 的 以 有 限 精 度 运算 时 的 线性 系统 解 的 敏感 性 。 如 果 一 个 线性 




















的 














系统 He = b 以 如 下 的 方式 被 扰动 , 添加 一 个 正比 于 e 的 误差 : 








(H + €F)s(e) =g+ef (21.3) 


那么 解 中 间 的 相对 误差 可 以 有 如 下 的 界 : 


IIs) = sl 





IIs| 


PRP TPR IE FE FEE 








le 
|| | 


lle fll 


lal tO? 


< «(1 


) ( 








) 十 


楚 列 斯 基 分 解 (Cholesky factorization) 可 以 帮助 我 们 找到 一 个 十 分 














稳定 的 三 角 分 解 。 将 互 〈 对 称 





正定 ) BA: 








其 中 工 是 单位 下 三 角 


因为 对 角 元 素 是 正 的 : 
































H = 


其 中 Rtt 
上 的 一 次 扩展 。 





的 








AIM, D 是 正 元 素 的 对 角 


FF 三角, 所 以 楚 列 斯 基 


H = LDL? 


和 矩阵 (LDL 分 解 )。 


















































R 可 以 通过 矩阵 中 的 元 素 相等 来 计算 : 





Ani Qn2 


我 们 为 元 素 (1,1) ¥ 


| 出 等 





接 下 来 为 第 一 行列 出 等 





研 DI/2DL2TT = LL" = R™R 
因子 也 是 H H MATAR”. SUL Ar IRL 
r11 T11 112 Tin 
站 To, T22 T22 Ton 
Tnl Tn2 Tnn Tnn 


2 
Q11 S fii; T= y 411 


Q12 = T1112, Q13 二 711713， 








第 一 行 结束 以 后 ， 开 始 第 二 行 ， 











上 述 过 程 需要 大 约 in? 次 乘法 和 加 法 ， 
急剧 增长 , 因为 下 式 总 





方 根 )。 R 中 的 元 素 不 会 


元 素 如 下 : 
a22 = Tig + r22 


以 及 次 求 平方 根 (如 果 用 LDL” 就 可 以 避免 求 平 


\ 是 成 立 : 











2 2 2 
Akk = Tik + Tok TE 
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现在 , 原 式 变 成 了 : 





R'Rs=g (21.4) 


IAAT AA a PS OS TRE, HAR PRE). AA PT Zk 
剥离 因子 : 












































R's; = -9 使 用 向 前 替代 (21.5) 
Rs = s 使 用 向 后 蔡 代 (21.6) 





解 方程 的 成 本 是 O(n2),， 因 此 显 性 成 本 是 在 分 解 的 步骤 中 。 








21.3.1 梯度 与 最 速 下 降 法 
在 很 多 情况 下 ， 如 果 线 性 系统 非常 大 ,通过 矩阵 求 逆 来 找到 二 次 模型 的 最 小 值 既 不 是 最 
高 效 也 不 是 最 健壮 的 方式 。 这 种 情况 在 机 器 学 习 中 十 分 频繁 。 另外, 很 多 时 候 二 次 偏 导 算 阵 
H 难以 计算 , 或 者 计算 成 本 大 高 。 
针对 上 述 情况 , 梯度 下 降 法 (gradient descent) 提供 了 一 个 简单 可 行 的 策略 , 它 朝 着 局 部 
最 优 逐 渐 改 进 一 个 初始 解 。 
如 果 梯 度 不 为 零 , 并 日朝 着 负 梯 度 的 方向 移动 : 












































Z+ 王 Ze 一 eV1 





考虑 f 的 泰勒 展开 式 (4.4)， 那 么 存在 一 个 足够 小 的 e ERRE FE, BI f(a.) < f(zc)。 
尽管 比较 粗粮， 并且 需 要 小 心 谨慎 地 选择 一 个 小 的 e 值 , 但 是 上 述 技术 在 很 多 领域 中 都 发 挥 
着 作用 (例如 在 第 9 章 中 所 介绍 的 训练 神经 网 络 的 流行 算法 ， 即 误差 反 向 传播 方法 )。 

最 速 下 降 法 (steepest descent) 的 解释 非常 自然 和 直观 。 在 某 个 表面 上 的 一 滴水 , 会 根据 
局 部 的 梯度 流向 局 部 最 低 处 ,至少 大 概 情况 是 这 样 的 。 滑雪 的 人 ,就 像 图 21-8 中 那样 ， 都 对 
最 速 下 降 法 有 着 深刻 的 体会 , 并 且 必 须 让 滑雪 板 与 最 速 下 降 的 梯度 垂直 来 停 住 。 最 速 下 降 的 
离散 版 本 将 在 第 22 章 以 局 部 搜索 的 形式 进行 讨论 。 其 思路 是 搜索 过 程 首先 在 邻 域 中 对 函数 
值 进行 抽样 , 然后 再 决定 走 哪 一 步 。 在 这 些 过 程 中 , 没有 用 到 全 局 视野 ， 只 有 局 部 信息 。 
除了 作为 下 降 方 向 , 众所周知 的 是 , 负 梯 度 -9 也 是 最 快 的 下 降 方向 。 有 一 个 表面 上 似乎 
J 靠 的 方法 , 是 通过 沿 着 以 下 梯度 进行 一 维 的 最 小 化 : 





































































































































































































z| 








min Q(. — gt) 
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~ \ i _ 


图 21-8 两 位 梯度 下 降 法 的 专家 在 意大利 特 伦 托 附 近 的 雪山 上 























可 异 , 这 种 直觉 是 错误 的 : 很 多 情况 下 , 把 力气 花 在 沿 着 梯度 进行 最 小 化 上 , 不 是 解决 最 
小 化 问题 的 最 优 方法 。 

问题 在 于 ， 当 矩阵 是 病态 的 时 ， 梯 度 方向 将 不 会 指向 最 优 解 ， 反 而 会 越 来 越 指向 一 个 垂 
直 的 方向 ! 二 维 空间 里 的 病态 能 被 可 视 化 : 等 高 线 被 朝 着 某 个 方向 拉 伸 ， 见 图 21-9。 当 沿 着 梯 
度 前 进 时 ， 轨 迹 会 变 得 晃 纤 曲折 ,使 得 到 达 最 小 值 的 时 间 增 加 。 


© 


正确 错误 
图 21-9” 当 搜索 最 小 值 的 时 候 , 梯度 有 时 并 不 是 合适 的 方向 
可 以 证 明 , 如 果 用 最 速 下 降 法 来 最 小 化 一 个 二 次 函数 Q(s) = gs + 587Hs CH 是 对 称 
BEER), 收敛 可 能 会 非常 缓慢 。 用 条 件数 < 来 具体 解释 , 当 «增加 时 ,当前 值 与 最 优 值 之 
间 的 距离 在 每 一 次 迭代 时 都 要 乘 以 一 个 接近 1 的 数 : 











































































































2 
COME OE. (meme) IQ(sn) — Q(64) 
Tmax + min 


(St) etn) - 266) 


如 果 人 允许 我 们 打 一 个 牵强 的 比方 ， 上 述 情况 对 生活 有 些 指导 意义 : 如 果 总 是 按照 贪心 法 
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的 方式 
21.3.2 
非 








， 以 局 部 最 优 方 向 上 的 最 小 化 为 目标 ,可 能 
HIR A 











FRA AAR eS UE BSH F MEDL 


共 斩 (mutually conjugate) 的 , #6 


p: Hp; =0, 








沿 着 方 


pif1， 那 么 沿 着 这 一 梯度 方向 的 变化 是 gi;y1 
黑 塞 (Hessian) FAME, 即 包含 二 次 导数 的 矩阵 ， 并 
数 。 MÆ, WRR (21.7) 成 立 ， 这 一 变化 将 重 直 于 前 一 个 方向 (pf (gi41 一 gi) = 0), 


n> 
其 实 是 


原来 的 函 





1 天 7 











向 pi 最 小 化 , 之 后 这 个 极 小 点 处 的 梯度 将 






































会 失去 更 多 “全 局 ”的 机 会 。 





两 个 方向 是 关于 和 矩阵 H 互相 


(21.7) 


会 垂直 于 六。 如 果 接 下 来 的 最 小 化 沿 着 方向 
-gi = aHpi (对 于 某 个 常数 a). ANERE H 
日 在 二 次 的 情况 下 ， 这 一 模型 恰好 是 











因此 ,这 一 新 点 的 梯度 保持 与 p; 垂直 ， 并 且 前 一 步 最 小 化 是 可 接受 的 。 昌 然 对 于 二 次 函数 ， 





这 种 内 


























精度 的 计算 ); 然而 对 于 一 般 的 函数 , 这 些 步 又 需要 迷 代 直到 得 出 最 小 值 的 一 个 合适 的 双 近 。 






























































CHOBE REE TT DAPRUETE ES n + 1 个 函数 和 梯度 运算 之 后 收敛 到 最 小 值 (至 少 对 于 无 限 






















































































引入 向 量 yk = gr41 一 gs。 首先 搜索 的 方向 p 由 负 梯 度 -gi 给 定 。 接 着 , 序列 sk 作为 
最 小 化 的 逼近 ,定义 为 : 
Tk+1 = ZK 十 CQKDK (21.8) 
Prot = —9r+1 + BePr (21.9) 
其 中 gx 是 梯度 ，ox 被 选 来 沿 着 搜索 方向 pe 最 小 化 E, Be 由 下 式 给 定 
Br = Ye giv (Polak-Ribiere 方法 ) (21.10) 
Jk Gk 
或 者 : 
Br = Ett1 (Fletcher-Reeves 方法 ) (21.11) 
gE Jk 
对 于 一 个 二 次 函数 , 这 两 种 方法 是 一 样 的 B11。 上述 形式 的 一 个 主要 难点 在 于 , 对 于 一 个 一 般 
的 函数 , 得 到 的 方向 不 一 定 是 下 降 的 方向 ,并且 可 能 导致 数值 不 稳定 。 
使 用 动量 (momentum) 项 以 避免 在 反 向 传播 (back-propagation) 97) 中 的 振荡 被 当 作 共 
UA BE NILE SK o 
21.4 高 维 中 的 非 线 性 优化 
现在 来 考虑 牛顿 法 在 高 维 中 的 收敛 性 质 。 这 一 方法 需要 求解 如 下 的 二 次 模型 : 








me(te +p) = JeaJ+Vjtzajrp 上 3prV21(zojp 
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并 日 迭代 ， 如 图 21-10 所 示 。 


1. function multi_dimensional_newton (f: R" > R, weER") 








á /是 二 次 连续 可 微 的 
3. while not 结束 

4. | T E VF (a,)S*=—Vf (e) 

5. Ty B+S% 











图 21-10 ”高 维 中 的 牛顿 法 





如 果 初 始点 接近 最 优 解 z* 并 且 V? f(a*) 是 正定 的 , 那么 该 方法 Q- 二 次 收敛 到 x*。 

假如 下 列 情况 发 生 , 会 产生 一 些 问 题 。 

o EEIEIEE: 存在 负 曲 率 的 方向 pT Ap <0, 这 意味 着 当 朝 着 方向 p 走出 无 穷 远 

时 , 这 个 二 次 局 部 模型 可 以 假设 有 任意 大 的 负 值 。 

。 黑 塞 矩 阵 是 奇异 的 或 病态 的 ,使 得 矩阵 求 逆 变 得 不 可 能 ,或 至 少 很 困难 。 

上 述 问题 页 引出 了 所 谓 的 修正 牛顿 法 , 将 局 部 模型 变 得 足够 正定 和 非 奇 异 。 此 外 ， 这些 方 
法 处 理 全 局 收敛 以 及 不 定 算 阵 ET, H ELSES ORG H. 这 一 方法 将 一 个 快速 的 局 部 战术 
与 一 个 健壮 的 全 局 战略 相 结合 ， 从 而 保证 全 局 收敛 。 


21.4.1 ”通过 线性 查找 的 全 局 收敛 
全 局 收敛 是 通过 沿 着 确定 的 方向 进行 线性 搜索 而 得 到 的 : 一 开始 尝试 牛顿 法 , 然后 可 能 


再 回溯 。 当然 , 需要 确保 这 一 方向 的 确 是 下 降 方 向 ! 幸运 的 是 , WARE H (对 称 的 ) 是 正定 
的 , 那么 牛顿 方向 总 是 下 降 方向 : 


df 
dà 


如 果 黑 塞 矩 阵 必须 被 逼近 ,当然 最 好 能 够 保持 对 称 性 和 正定 性 ， 以 保证 方向 是 下 降 的 。 



















































































































































































= (ze + ASN) = V f (£e) sT = -V f (xe) H7) V f (xe) < 0 



































允许 的 区 域 





图 21-11 Armijo-Goldstein 条 件 
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一 种 确保 全 局 收敛 的 方法 要 求 : f 值 能 够 保证 减少 一 定 的 步 长 , 步 长 
方向 保持 远离 与 梯度 垂直 的 方向 。 满 足 上 述 要 求 的 一 种 流行 方 法 是 通过 
件 B2, IS] 21-11。 

(1) 


























要 足够 长 , 并 且 搜 索 
Armijo-Goldstein 条 








(ze T Acp) < Fize) T ANV f (£e) "p 
HEH a € (0,1) H Ae > 0。 





(2) 
Vi (£e + Acp) p> BV f(£e)"p 
其 中 6 € (0,1). 
如 果 在 每 次 迭代 中 都 满足 Armijo-Goldstein 条 件 ， 并 且 误 差 有 下 界 ， 那 么 有 以 下 全 局 收 
KE: 

















lim Vf(x-) = 0 


大 一 co 


前 提 是 每 一 步 都 远离 牌 直 于 梯度 的 方向 : 








jim VF (ae)sx/I|sxl] #0 











如 果 Armijo-Goldstein 条 件 维 持 不 变 , 可 以 使 用 不 失 全 局 收敛 的 快速 近似 一 维 搜索 外] 。 
21.4.2 ”解决 不 定 黑 塞 矩 阵 
如 果 黑 塞 矩 阵 是 不 定 的, 可 以 使 用 修正 楚 列 斯 基 方 法 。 考虑 谱 分 解 : 





























H=UAUT= 5 muju? 


其 中 4 ERHI, Au 是 本 征 值 mo 

很 容易 可 以 看 出 , WR y 是 负 值 (不 存在 最 小 值 , 值 可 以 趋 近 负 无 穷 大 ) 或 者 接近 零 ( 逆 
和 矩阵 将 有 接近 无 穷 大 的 本 征 值 ), 将 会 发 生 什么 。 

如 果 H 是 非 正 定 的 或 者 病态 的 ,非常 直接 的 补救 措施 之 一 是 加 上 一 个 简单 的 对 角 和 矩阵 






















































































H'=Vf(ae)+Ucl, pe > 0 



























































使 得 黑 塞 矩 阵 V2 f (oe) + pel 是 正定 且 良 置 的 “。 
这 将 引出 修正 楚 列 斯 基 分 解 : 找到 另 一 eae A, 的 楚 列 斯 基 分 解 ,它们 的 区 别 只 在 于 
JEG FA KEE K: 





H.=LDL'=H.+K 





© 即 非 病 态 的 。 一 一 译 者 注 
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其 中 , D 中 的 所 有 元 素 都 是 正 的 , L 中 的 所 有 元 素 都 是 一 致 有 界 的 : 





dk >ô, |lij|V dk < 8 











参考 文献 [48] SE RT EREE 6o EEEE REEE V? f (we) + ued 
EEEH RE 425, 
这 相当 于 在 我 们 的 原始 模型 中 增加 了 一 个 正定 二 次 型 。 这 使 得 大 步 长 往往 会 受到 惩罚 。 


21.4.3 “与 模型 信赖 域 方 法 的 关系 


以 前 的 技术 基于 寻找 一 个 搜索 方向 , 并 朝 着 该 方向 移动 可 接受 数量 的 步 长 (“基于 步 长 的 
方法 ”)。 
由 于 上 一 个 修正 为 此 局 部 模型 增加 了 二 次 项 : 










































































mmodified (Te + 8) = me(zet 8) + Hess 


一 个 可 能 的 猜想 是 , 最 小 化 这 个 新 模型 等 价 于 最 小 化 原 有 模型 , 并 且 约束 s 的 步 长 不 能 太 大 。 
实现 方法 可 以 是 首先 选择 最 大 步 长 , 然后 使 用 完整 (而 不 是 一 维 ) 二 次 模型 来 确定 合适 
的 方向 。 在 模型 信赖 域 方法 (model-trust region method) F, 模型 只 在 某 个 区 域 是 可 信和 的 , 这 
一 区 域 可 以 通过 使 用 搜索 过 程 中 积累 的 经 验 来 更 新 。 
定理 3 ”假设 寻找 步子 so 来 求解 


















































minme(zet+s) = f(ze) + Vf(re) Ts+ 5sT Hos (21.12) 
使 服从 ||s|| < ôe (21.13) 

上 述 问题 的 解 是 : 
s(u) = —(He + pI) Vf(ze) (21.14) 


对 于 使 得 这 一 步 长 是 最 大 允许 值 (||s(1) = de) 的 唯一 的 jw > 0， 牛 顿 法 的 步子 是 问题 的 解 ， 
除非 对 应 于 1 二 0 89 EAS R (||5(0)|| < 6.) E c BP s(0) 的 情况 。 

黑 塞 矩 阵 的 对 角 线 修正 是 梯度 下 降 法 和 牛顿 法 之 间 的 折 中 : 当 / 趋 于 零 时 ， 原 来 的 黑 塞 
ERE JLP 是 正定 的 ,并 且 步 子 与 牛顿 法 的 步子 趋 于 重合 ; 当 u 变 大 时 ， 对 角 线 的 加 成 AT 
趋 于 主导 地 位 ， 并 且 步 子 趋向 正比 于 负 梯 度 ; 













































































s(p) = (He + HI) V f(E) = -ŽV F(a.) 























= 


这 些 没有 必要 从 一 开始 就 定 下 来 ， 该 算法 以 自 适应 的 方式 选择 移动 ， 以 适应 于 误差 表面 
的 局 部 构造 。 











200 第 21 章 自动 改进 的 局 部 方法 





21.4.4 割 线 法 


如 果 黑 蹇 矩阵 无 法 计算 或 者 计算 成 本 很 高 , 那么 制 线 法 就 可 以 派 上 用 场 了 。 
在 一 维 的 情况 中 , 二 阶 导数 可 以 由 两 个 邻近 点 的 一 阶 导 数值 割 线 的 斜率 来 逼近 ; 
d? f(x) ~ (af(z2) df(zxı) 
dx? a ( dz dx ) 
在 高 维 的 情况 中 ， 如 果 只 有 一 个 方程 式 ， 那 么 是 不 充分 的 。 令 当前 点 和 下 一 个 点 分 别 为 
Ze 和 z+， 然 后 定义 ss = 24 — £e 和 yc = Vf (£4) — Vfl) (梯度 差 )。 相 应 的 “ 制 线 方程 ” 


是 : 





















































(21.15) 












































Hi (21.16) 
上 述 方程 并 不 能 决定 唯一 的 五 +， 而 是 从 (mn? — n) 维 仿 射 子 空间 Q(se, yo) 中 可 以 目 由 选 
择 服 从 方程 (21.16) 的 矩阵 。 
一 个 可 能 的 解决 问题 的 方法 是 使 用 以 前 的 “历史 ”。 换 句 话说 , 方程 (21.16) 不 是 用 来 决 
定 ， 而 是 用 来 更 新 先前 可 用 的 逼近 。 
特别 是 布 罗 伊 登 (Broyden ) 法 中 ,可 以 使 用 最 小 改变 原则 ， 找 到 Q(se, ye) CA 中 最 












































































































































接近 先前 可 用 的 矩阵 的 那个 矩阵 。 这 是 通过 将 这 个 矩阵 以 弗 罗 贝 尼 马 斯 范 数 投影 到 Qlse Ye) 
得 到 的 (和 矩阵 作为 一 个 长 向 量 )。 
布 罗 伊 登 更 新 的 结果 如 下 : 
(H+) = H+ (ye — Hosc)se (21.17) 


sis. 





然而 , 布 罗 伊 登 更 新 不 保证 矩阵 是 对 称 的 ( 记 住 , 我 们 想 要 的 是 下 降 的 方向 )。 

将 布 罗 伊 登 矩 阵 投影 到 对 称 和 矩阵 子 空间 是 不 够 的 , 得 到 的 算 阵 可 能 不 在 Q(sc, ye) 中 。 

幸运 的 是 ,如 果 重 复 使 用 上 述 两 种 投影 ， 得 到 的 序列 (H) 将 会 收敛 到 一 个 矩阵 ， 既是 
对 称 的 ,又 在 Q(Se, Yc) 中 。 这 就 是 鲍威尔 (Powell) 对 称 割 线 更 新 : 
(ye — Hosc)st + selyo — Hese)? < ye — Hoso,so > sesl 

sTse (sd 8c)? 

现在 接近 一 个 令 人 满意 的 更 新 了 ,但 是 我 们 需要 的 黑 塞 矩 阵 的 逼近 应 该 是 正定 的 。 黑 塞 
和 矩阵 五 + 是 对 称 且 正定 的 , 当 且 仅 当 互 + = .JJT,， 其 中 JE ESSE AT BE. HE AY 
伊 登 法 得 到 一 个 合适 的 J ， 从 而 能 够 得 到 一 个 合适 的 更 新 。 

这 样 得 到 的 更 新 在 历史 上 称 为 BFGS 更 新 B, 其 中 BFGS 代表 布 罗 伊 登 (Broyden)、 弗 
34) (Fletcher). KIEL AT (Goldfarb) 与 香农 (Shanno)， 由 下 式 给 定 : 


H,.-H.-4 yc 多 Hesses He 
Fe ylse sHs 


















































H,=H,4 





(21.18) 























































































































(21.19) 


正定 制 线 更 新 以 gq- 超 线性 收敛 B89。 
可 以 用 单位 矩阵 作为 初始 矩阵 Ho, 这 样 第 一 步 是 沿 着 负 梯 度 进行 的 。 
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21.4.5 ”缩小 差距 : 二 阶 方法 与 线性 复杂 度 


精确 计算 黑 塞 算 阵 需 要 阶 为 O(n?) 的 操作 数 和 阶 为 O(n?) 的 存储 器 , 用 于 存储 黑 塞 矩 阵 
的 元 素 ， 另 外 求解 方程 来 找到 牛顿 法 的 步子 〈 或 搜索 方向 ， 见 图 21-10) 需要 Oln?) 个 操作 ， 
至 少 采用 传统 的 线性 代数 方法 时 是 这 样 。 幸 运 的 是 ,一 些 二 阶 信息 可 以 从 前 面 的 梯度 开始 计 
算 ， 因 此 将 搜索 方向 的 计算 量 和 内 存 需 求 减 至 O(n)。 参 考 文献 [42] 中 的 术语 “ 割 线 法 ”会 让 
人 想起 用 连接 两 个 函数 值 的 割 线 来 通 近 导数 。 

从 历史 的 角度 来 说 , 单 步 正 割 法 (one-step-secant method, OSS) 是 所 谓 单 步 (无 记忆 )BFGS 
法 的 变型 ， 见 参考 文献 [97]。OSS 方法 已 被 用 于 参考 文献 四 和 参考 文献 [12] 中 的 多 层 感知 
器 。 其 主要 过 程 示 于 图 21-12 和 图 21-13。 
注意 ,， BFGS( 见 参考 文献 [L12] ) 存储 整个 近似 的 黑 塞 矩 阵 ， 而 单 步 法 仅 需 从 梯度 计算 向 
量 。 事 实 上 ， 新 的 搜索 方向 的 p 由 下 式 计 算得 来 ; 




































































































































































P+ = —Ge ote AcSe + Beye (21.20) 


其 中 的 两 个 标量 4。 和 Be 是 下 列 先前 定义 的 向 量 sex ge 和 y。( 最 后 一 步 , 梯度 和 梯度 的 差 ) 
的 标量 积 的 组 合 : 





a ( ue) sege | VeIe | p _ Ses 
p= T 


$ E = 
sTye sTye sTye sTye 














搜索 方向 在 学 习 开 始 时 是 负 梯 度 , 每 隔 N 步 后 重新 变 为 -ge CN 是 网 络 中 的 权重 数 )。 

方向 为 pe 的 快速 一 维 最 小 化 ， 对 于 获得 高 效 的 算法 是 至 关 重 要 的 。 图 21-13 描述 了 算 
法 ( 源 于 参考 文献 [42]) 的 这 一 部 分 。 一 维 搜索 基于 回溯 策略 。 我 们 增加 上 一 次 成 功 的 学 习 率 
入 CA 一 入 x1.1), 并 执行 第 一 个 试探 性 的 步骤 。 为 了 与 图 21-12 及 图 21-13 的 记号 相同 , 使 用 
EB “fea” ) 表示 需要 优化 的 函数 。 如果 新 的 巨 值 不 低 于 “上 限 ” 曲 线 , 那么 尝试 一 个 新 的 试 
探 性 步骤 , 使 用 连续 的 二 次 插值 , 直到 符合 要 求 。 注意 , 每 次 失败 的 尝试 之 后 , 学 习 率 会 下 降 
到 Laecr。 二 次 插值 不 浪费 计算 资源 。 事实 上 , 在 第 一 次 尝试 后 , 我 们 正好 拥有 了 拟 合 一 条 抛 
物 线 所 需 的 信息 : 初始 点 的 值 Eo 和 Eb 以 及 尝试 点 的 值 Ey. 抛物 线 P(z) 是 : 

































































































































































(21.21) 


Ey — Eo — AEG 
P(t) = Fo + Bie + | 2 : | y 


入 2 




















) 且 最 小 值 Amin 是 : 














= 
Amin = Eo < : 入 
2 | 2(1 一 Gacer) 





(21.22) 


如 果 图 21-12 中 的 “梯度 乘 数 ”Gaueu A 0.55 那么 最 小 化 抛物 线 的 Amin 小 于 入 。 


























€ 学 习 率 

€ 平均 学 习 率 

Weurr 权重 

d 搜索 方向 
1. procedure oss_minimize 
9. [| begin_or_restart 
3. e + 1075 
4. Et 107 
5. Weur S 随机 初始 权重 
6. wR 1 
7. while 未 满足 收敛 条 件 
8. [if 迭代 次 数 是 的 倍数 
9. begin_or_restart 
0. 迭代 << At + 1 
11. d < find_search_direction 
2. if fast_line_search (d) = false xk (21.20) 
13. begin_or_restart 
4. procedure begin_or_restart 
15. | 找到 当前 的 能 量 值 
16. ere 
T: d + -g 
18. | fast_line_search (d) 





图 21-12 APHRA 
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在 现实 世界 中 ,存在 很 多 偏 导数 不 能 使 用 的 情况 , 原因 是 该 函数 是 不 可 微 的 , 或 者 是 计 
算 导 数 的 成 本 太 高 了 , 因此 需要 研究 仅 基 于 函数 值 的 优化 技术 , 例如 基于 参考 文献 [101] 理论 
框架 基础 上 的 自 适应 随机 搜索 算法 的 变种 。 

通常 方案 始 于 在 配置 空间 中 选择 一 个 初始 点 及 其 周围 的 初始 搜索 区 域 , 并 按 以 下 步骤 进 
ITIER. 
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(1) 根据 给 定 的 概率 


rel 





度量 , 在 搜索 区 域 中 抽样 , 产生 一 个 新 的 候选 点 。 











(2) 搜索 区 域 根 据 新 点 的 函数 值 进行 调整 。 若 新 的 函数 值 大 于 当前 的 〈 不 成 功 的 抽样 ) 值 ， 





则 缩小 搜索 区 域 , 反之 则 扩大 搜索 区 域 。 























(3) 奢 抽 样 是 成 功 的 , 则 新 的 点 成 为 当前 点 , 并 随 之 移动 搜索 区 域 , 使 得 当前 点 成 为 下 一 


次 迭代 的 中 心 。 
为 了 得 到 有 效 的 实现 , 在 当前 点 周围 的 简单 

































































区 域 进行 搜索 就 是 够 了 , 例如 盒 形 的 区 域 即 
区 域 边缘 由 一 组 线性 无 关 矢 量 给 定 ) 并 且 概 率 在 盒 内 均匀 分 布 。 这 种 情况 下 , 产生 一 个 随机 








位 移 很 简单 : 基础 向 量 乘 以 范围 (—1.0, 1.0) 内 的 随机 数 并 加 上 5 =O, Rand x bje 
































我 们 可 以 不 严格 要 求 盒 形 边缘 平行 于 坐标 轴 ， 通过 沿 任意 方向 的 仿 射 变换 ， 边 框 可 以 被 














压缩 或 扩展 ， 下 一 节 将 进行 说 明 。 
21.5.1 RAS: 抽样 区 域 的 适应 性 




















个 简单 但 十 分 有 效 的 ， 不 涉及 导数 的 自 























适应 方法 是 反馈 仿 射 振荡 器 (RAS) 算法 BH, 











它 基 于 参考 文献 [14] RAS 通过 一 个 仿 射 变换 来 适应 搜索 区 域 。 两 个 向 量 空间 的 一 个 仿 射 变 
换 (来 源 于 拉丁 语 afttnis，“ 连 接 ” 的 意思 ) 由 一 个 紧 接 平移 的 线性 变换 组 成 





cre Ar+b 

















在 几何 学 中 , 欧 几 里 得 空间 中 一 个 仿 射 变换 保持 : 
(i) 点 之 间 的 共 线 性 (collinearity), 也 就 是 说 , 同一 直线 上 的 点 在 变换 后 仍 在 同一 直线 上 ; 
(ii) 同一 直线 上 距离 的 比值 , 也 就 是 说 , 对 于 3 个 互 不 相同 的 共 线 点 p11、p22、p33, 比值 
|p2 一 pi|/|ps 一 p2| 将 会 保持 不 变 。 通 常 ， 一 个 仿 射 变换 是 由 线性 变换 〈 旋 转 、 缩 放 或 剪 切 ) 和 











一 个 平移 变换 (或 者 “转移 ”) 组 成 。 
在 RAS F, 当 找 到 一 个 成 功 的 样本 时 ， 

































































区 域 沿 人 














E 意 成 功 方向 拉 长 ; 如 果 没 有 找到 ,区域 














沿 失败 方向 压缩 。 这 些 修改 考虑 到 均匀 分 布 生成 的 尝试 点 给 出 的 局 部 信息 。 这 样 做 的 目的 是 


在 包含 初始 点 的 吸引 域 (attraction basin) 中 搜索 局 音 























g 极 小 值 ， 通过 调整 步 长 大 小 和 方向 ， 以 

















求 在 每 次 进行 函数 求 值 之 后 都 启发 式 地 保持 最 大 可 能 的 移动 。 这 种 设计 的 补充 是 某 些 策略 选 





择 的 分 析 ,， 如 双 射 策略 (double-shot strategy) F 
馈 仿 射 振荡 器 )。 该 解决 方案 尽量 减少 跳 回 最 小 














[初始 化 BU 。 现 在 谈 一 谈 这 个 方法 的 名 称 〈 反 
区 域 的 跳跃 数目 , 这 是 由 不 断 变化 移动 方向 和 














大 小 来 实现 的 。 搜 索 区 域 和 步子 的 调整 因此 是 通过 由 搜索 本 身 的 演变 引导 的 反馈 回路 实现 的 ， 


也 就 是 实现 一 个 “反馈 ”自我 调节 的 机 制 。 生 成 抽 相 

















的 过 程 根据 /表面 的 局 部 特性 进行 调整 ， 














引导 它 的 是 反馈 搜索 优化 原则 的 灵魂 , 这 将 在 第 22 章 讨论 。 步 长 和 方向 的 不 断 变化 创造 了 一 
AS PERE AEA” 的 轨迹 ， 有 着 突然 性 的 跳跃 和 转折 。 
RAS 算法 的 伪 代 码 见 图 21-14。 每 次 迭代 时 , 会 产生 一 个 位 移 A, 使 得 点 x 十 A 均匀 分 





























布 在 局 部 搜索 区 域 及 中 (第 4 行 )。 为 了 达到 这 个 目的 , 基 向 量 都 被 乘 以 了 范围 在 [-1, 1] 的 























不 同 的 随机 数 , 并 且 加 上 : 
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A = 》 Rand(-—1,1)b; 
J 











Rrand(—1,1) 表示 调用 随机 数 发 生 器 。 如 果 z+A 或 者 z- 4 中 的 某 一 个 改进 了 函数 值 , 那 
么 它 被 选择 为 下 一 个 点 。 把 这 个 改进 点 记 为 z'。 为 了 沿 着 有 希望 的 方向 扩展 这 个 盒 形 区 域 ， 
这 些 盒 型 向 量 b; 需要 做 如 下 修改 。 
改进 的 方向 是 A。 将 相应 的 归 一 化 为 单位 长 度 的 向 量 记 为 AA’: 
, A 
AI 


















































那么 , 向 量 b; WE A 方向 的 投影 是 : 


bi A = A’(A’- bi) = A'ATb; 














为 了 获得 所 需 的 效果 , 这 一 部 分 以 某 个 系数 p > 1 扩大 , 所 以 新 向 量 b 的 表达 式 是 : 




















be = bit(p— 1)bilA ae 
= b+(p—-1)A'A"d; 
AAT 
= ate- Dap” 
= Pb 
其 中 
AAT 
P=I+(p-1) lA (21.24) 








测试 函数 值 在 两 个 点 z+A Ala 一 A 上 的 改进 被 称 为 双 射 策略 : 如 果 第 一 样本 e+ A 
不 成 功 , 就 考虑 对 称 点 z 一 A。 这样 的 选择 大 大 减少 了 产生 两 个 连续 不 成 功 样本 的 概率 。 为 了 
解释 起 来 更 具体 , 考虑 围绕 当前 点 拟 合 一 个 平面 : 如 果 革 一步 增加 了 f, 那么 相反 的 一 步 会 减 
> fo 转 到 数学 层面 ,如果 考虑 可 微 函 数 和 小 位 移 ， 沿 位 移 方向 的 导数 与 位 移 和 梯度 A Vf 
之 间 的 标量 积 是 成 比例 的 。 如 果 第 一 项 为 正 ， 那 么 符号 的 变化 就 会 产生 无 用 的 负 值 ， 因 此 对 
于 足够 小 的 步 长 ,f 也 会 减 小 。 对 于 一 般 的 不 一 定 可 微 的 函数 , 实践 证 明 也 是 有 效 的 , 这 是 由 
于 很 多 对 应 于 现实 世界 问题 的 函数 所 包含 的 相关 性 和 结构 。 

如 果 双 射 策略 失败 , 那么 运用 仿 射 变换 [I (21.23)] 时 , 膨胀 系数 p 就 由 它 的 逆 p71! FAK 
(如 图 21-14 第 12 行 所 示 ), 使 得 搜索 区 域 缩小 。 

图 21-15 展示 了 反馈 仿 射 振荡 器 算法 的 几何 方面 , 其 中 需要 被 最 小 化 的 函数 由 固定 f 值 
的 等 高 线 表 示 ， 并 且 画 出 了 两 个 轨迹 (ABC 和 4'B'C')。 沿 着 搜索 轨迹 的 一 些 点 展示 了 搜索 
区 域 。 RAS 的 设计 准则 由 局 部 极 小 值 的 激进 搜索 给 定 : 当 搜 索 步 子 (点 A A AD 成功 时 , 搜 
索 速 度 加 快 ， 如 果 在 双 射 之 后 没有 发 现 更 好 的 点 ， 搜索 速度 减 慢 。 当 一 个 点 接近 局 部 极 小 值 
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时 , 不断 减 少 搜索 框 将 产生 一 个 收敛 非常 快 的 搜索 (C 点 )。 注意 , 缩小 搜索 区 域 的 另 一 个 原 
因 可 能 是 一 条 狭窄 的 下 降 通 路 (一 个 “峡谷 ” 例如 B 点 ), 这 时 , 所 有 可 能 的 方向 上 只 有 一 
小 部 分 能 改进 函数 值 。 然而, 一 旦 发 现 了 一 个 改进 ,搜索 区 域 就 应 该 沿 着 这 个 有 希望 的 方向 
扩展 , 从 而 能 够 在 该 方向 上 更 快 地 移动 。 



























































21.5.2 ”为 健壮 性 和 多 样 化 所 做 的 重复 








在 一 般 情况 下 , 有 效 估计 全 局 极 小 值 的 步 数 显然 是 不 可 能 的 。 即使 找到 了 局 部 极 小 值 
般 不 可 能 确定 它 是 否 为 全 局 最 优 ,特别 是 如 果 只 是 从 f(a) 在 所 选 的 点 上 的 值得 到 关于 该 函 
数 的 知识 , 而 这 是 处 理 现 实 世界 问题 的 一 种 常见 情况 。 
因为 RAS 不 包括 避免 局 部 极 小 的 机 制 , 所 以 当 轨迹 足够 接近 一 个 局 部 极 小 时 , 就 应 该 售 
止 搜索 。 PB, WRI RK BUD TIES BE, RAS 的 单 次 运行 就 应 该 被 终止 。 事 实 上 , 如 果 在 
附近 重复 改进 函数 值 而 未 能 成 功 ， 盒 区 域 往 往 会 减 小 其 体积 至 接近 局 部 极 小 值 。 

RAS 搜索 局 部 极 小 , 只 要 找到 一 个 就 停止 搜索 。 让 搜索 继续 的 一 个 简单 方法 是 从 不 同 的 
初始 随机 点 重新 开始 运行 。 这 种 方法 相当 于 有 一 个 RAS 搜索 器 的 “总 体 ” 样本， 这 个 总 体 中 
的 每 个 成 员 是 独立 的 , 完全 不 知道 其 他 成 员 正 在 做 什么 (图 21-16)。 第 23 章 将 会 讨论 更 复杂 
的 协调 搜索 器 团队 的 方式 : CoRSO 框架 。 

通过 学 习 RAS 的 经 验 得 出 的 一 个 建议 是 : 懒惰 ! 先 尽量 尝试 简单 的 方法 , 仅 当 期 待 一 个 
可 观 的 改进 时 ， 才 增加 复杂 度 KISS 原则 )。 注 意 ，RAS 需要 和 矩阵 和 向 量 的 相 乘 来 更 新 搜索 
区 域 , 因此 当 维 数 变 得 非常 大 时 ,这 一 方法 会 变 得 缓慢 。 图 21-17 中 概述 了 更 简单 的 惯性 振 
荡 器 (inertial shaker) 技术 , 在 维 数 很 大 的 时 候 可 能 是 一 个 更 有 效 的 选择 : 搜索 框 总 是 由 平行 
于 坐标 轴 的 向 量 〈 因 此 搜索 框 由 单个 向 量 b 确定 ,并且 不 需要 算 阵 乘法 ) 和 一 个 趋势 方向 确 
定 , 该 趋势 方向 由 许多 之 前 的 位 移 的 平均 值 确定 A: 第 7 行 中 的 find trend 函数 只 是 返回 先 
前 位 移 的 加 权 平 均值 maisp: 




























































































































































































































































































T u 
5 O01_ue (history_depth)2 





ô; = amplification - 





1 
T u 
> e (history_depth)? 














其 中 amplification 和 history depth 由 算法 所 定义 , 而 Mdisp 的 选择 是 用 来 去 除 可 忽略 不 计 的 
旧 数 权重 ， 使 得 历史 记录 保持 合理 的 长 度 。 

图 21-18 显示 了 在 搜索 位 置 x 处 如 何 将 双 射 策略 应 用 到 所 有 组 件 。 只 要 改进 了 结果 , 就 
对 每 个 部 件 都 施加 一 个 位 移 。 如 果 没 有 改进 的 可 能 ， 那 么 函数 返回 false， 并 将 搜索 框 相应 
缩小 。 
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Oy Sa" 08 Ooh ee oe a 


上 
N e 











d 搜索 方向 

g 函数 梯度 

w 权重 

g a 在 梯度 方向 上 的 投影 
E 当前 能 量 

Pi 最 优 能 量 

ok 发 现 可 提升 步骤 

trials 迭代 次 数 

MAXTRIALS 允许 的 最 大 迭代 次 数 
Lacer 每 次 迭代 下 降 的 步 数 





procedure fast_line_search (d) 
fd,«+g-d 
if d > 0 
d+-g3;4,+g:d 
已 saved 全 E 


ec Li; 


incr 


€; ok ¢ false; trials = 0 
repeat 
| trials + trials + 1 

w & Wort €d 

E + E(w) 

if E < E saved + Gaecr HE 


ok + true 
else 


we Weurr + € quad d 
E E(w) 
if E < E saved aE G decr di € 


ok < true ; ce} € 


quad 
quad 


else 





Et Lies € 


until ok = true or trials > MAXTRIALS 
if ok = true 


p+ ed 


Ww w 


curr 


g + Vu E (w) 
e¢+09€+01€ 





L return ok 


图 21-13 单 步 制 线 算法 的 第 二 部 分 铅 : 在 所 选 方向 上 快速 进行 





eauad ~ parabola_minimizer (Esaveq, d1,f) 


维 


IÑ (21.22) 





搜索 
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(输入 ) ”要 最 小 化 的 函数 











nb 输入) ”表示 z 周围 搜索 域 R 的 向 量 














eB] 





J 


f 
si (输入 ) ”初始 点 
bi, 
p GRAD MJEH 
t ( 内 部 参数 ) RAKAM 
P ( 内 部 参数 ) 变换 矩阵 
z, A ( 内 部 参数 ) 当前 值 和 位 移 
ill. function ReactiveAffineShaker(f, x, ( b;), p) 
2. fr t0 
3. repeat 
4. A < 90, Rand(-1, 1)b; 
5. if f(a +A) < f(x) 
6. faca+A 
T P#1I+(p-1) sai, 
8. else if f( æ — A) < f(x) 
9. f w+ a-A 
10. Pert (pn Aa 
1. else 
12. pert -ds 
13. Vj bj = P bj 
14. | te t+l 
15. until 满足 收敛 条 件 
16. | return æ 





图 21-15 RAS 的 几何 示意 图 : 


图 21-14 RAS 算法 的 伪 代 码 








两 条 搜索 轨迹 得 到 两 个 不 同 的 局 部 极 小 值 , 改编 自 参考 文献 [31] 
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f 〈 输 入 ) ”要 最 小 化 的 函数 
P (输入 ) = 盒 形 拓展 因子 
TD (输入 ) BREE 
Ds, La, Ui, Ua (输入 ) ”初始 范围 
b1, ba (内 部 参数 ) 表示 x 周围 搜索 域 及 的 向 量 
T, x! (内 部 参数 ) 当前 值 ， 最 终 运动 值 
function RepeatedReaciveA ffineShaker (f, p, (L4), (U}), (L;), (U;)) 
[ Vibe Si -€j 

pardo 


[æ | 随机 值 € [L4, Uj] 六 [La, Ual 
| x’ + ReactiveAffineShaker(f, x, ( b;), p) 
return 找到 的 最 优 值 


图 21-16 RAS 算法 , 来 自 参考 文献 [31] 








Oe OY ae? (Oe 








f (输入 ) ”要 最 小 化 的 函数 
x CHA) “初始 值 和 当前 值 
b 
6 








(输入 ) ”表示 Zz 周围 搜索 域 及 的 盒 形 区 域 
(参数 ) ”当前 偏 移 



























































amplification (参数 ) ”未 来 位 移 的 放大 因子 
history_depth (参数 ) ”历史 位 移 均值 的 权重 衰减 因子 
1. function InertialShaker (f, æ, b) 
2. t0 
3 | 重复 
4. [ success < double_shot_on_all_components (6) 
5. if success = true 
6.  xrexr+ô 
7 find_trend (6) 
8. if f(a + 6)< f(x) 
9 f w+ a+ 
10. | increase amplification 和 history_depth 
11. else 
12. decrease amplification 和 history_ depth 
13. | 直到 满足 收敛 条 件 
14, | return x 
图 21-17 惯性 振荡 器 算法 , 来 自 参考 文献 [14] 
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f 要 最 小 化 的 函数 
2 当前 值 

表示 当前 搜索 盒 形 区 域 的 向 量 
5 位 移 


1. function double_shot_on_all_components (f, x, b, 6) 









































pA | success + false 

3. ter 

4. for i € {1,---,n} 

5. E«f( 2) 

6. r4 |—b;, bi] 中 的 随机 值 
T. Êi {= £; +r 

8. if f(z) >E 

9. | ĉi ĉi 2r 

10. if f(2)> E 

1. | bi = Pomp bi 

2, L ĉi {= ĉi +r 

3, else 

4. | bi + pexpbi 

5. success ¢— true 
16. else 
17. | bi s= Pexpbi 
18. success <— true 

9. if success = true 
20. ô| £-2 
21. [| return success 
图 21-18 ”参考 文献 [14] 中 的 双 射 策略 : 对 所 有 的 组 件 在 搜索 框 内 施加 一 个 随机 位 移 ， 
保证 每 一 步 都 有 改进 ,反之 返回 false 
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对 实数 作为 输入 参数 的 函数 (模型) 进行 优化 是 一 个 古老 的 领域 , 大约 始 于 第 二 次 世 
界 大 战 期 间 , 现在 发 展 到 了 很 高 的 水 平 。 这 一 研究 的 目的 在 于 设计 自动 化 技术 来 找到 导致 
最 大 (或 最 小 ) 输出 值 的 输入 。 

尽管 数学 是 复杂 的 , 大 多 数 优 化 技术 的 基础 还 是 非常 容易 理解 的 , 哪怕 你 不 记得 在 微 
积分 (研究 变化 的 数学 ) 课堂 上 学 了 什么 。 天 上 挥 下 来 的 一 滴水 融入 大 海 ， 这 一 过 程 无 须 
任何 数学 技巧 。 

优化 技术 基本 步骤 如 下 。 从 输入 参数 的 初始 值 开 始 ,， 对 各 种 输入 加 入 小 的 局 部 变化 并 
测试 它们 的 影响 (看 看 是 否 导致 更 大 或 更 小 的 输出 值 )。 根 据 测 试 结果 ,决定 是 否 接 受 该 
局 部 变化 。 重复 这 一 过 程 , 直到 有 所 改进 ,从 而 获得 越 来 越 好 的 输出 值 。 

如 果 能 计算 导数 ， 就 有 了 简单 的 方法 来 预测 小 的 局 部 变化 的 影响 。 事 实 上 ,可 以 把 时 
数 当 作 交 化 的 局 部 预测 。 WRIT RAB, 以 至 于 “变化 等 于 导数 乘 以 步骤 ”, 那么 它 的 
近似 也 会 比较 理想 。 如 果 导 数 不 可 用 ,那么 可 以 直接 测试 微小 变化 〈 例 如 在 RAS 中 ), 并 
不 断 适 应 局 部 模型 来 减少 无 用 的 的 函数 求 值 。 局 部 适应 性 需要 从 前 面 的 搜索 步骤 中 进行 学 
习 。 

如 果 能 理解 原理 ,即使 没有 数学 定理 , 也 是 够 让 你 自如 地 使 用 优化 软件 ,并 能 够 避 开 
大 多 数 的 陷阱 。 毕 竞 , 你 滑雪 的 时 候 , 不 需要 微 积分 和 数学 分 析 来 保证 你 不 会 摔 倒 ， 或 者 
保证 你 到 达 滑 雪线 车 。 



































































































































第 22 章 


局 部 搜索 和 反馈 搜索 优化 


每 个 人 都 肩负 着 各 自 的 选择 ， 这 也 不 是 难以 承受 之 重 。 


—-Romano Battiti 











现在 来 考虑 寻找 离散 (组合 ) 的 极 小 值 的 最 优化 问题 。 例 如 , 给 定 城市 和 相互 之 间距 离 的 
列表 , 想 要 找到 恰好 经 过 每 个 城市 一 次 的 最 短路 线 。 这 就 是 所 谓 的 旅行 商 问题 (TSP), 该 问 


题 和 旅行 的 相关 性 是 显 
论 计算 机 科学 研究 中 的 一 个 非常 棘手 的 问题 它 最 早 作 为 一 个 数学 问题 在 1930 年 提出 ， 











而 易 见 的 ， 比 如 可 以 减少 路 费 和 二 氧化 碳 排放 量 。TSP 是 运筹 学 和 理 




















如 今 


是 优化 领域 研究 最 深入 的 问题 之 一 。 找 到 大 型 实例 的 最 优 解 在 计算 上 是 困难 的 (实际 上 在 大 


多 数 情况 下 , 这 是 不 可 能 的 ), 但 人 们 依旧 所 


TENE, 在 实践 中 都 能 够 有 效 地 解决 。 
整体 上 抽象 来 说 , 给 定 一 个 函数 fs 定义 在 一 组 离散 的 可 能 输入 值 X E, ARKEEN 








为 TSP 中 城市 排列 的 函数 , 目标 是 寻找 使 得 函数 f 取得 最 小 可 能 值 








搜索 的 基本 要 素 ， 以 及 更 先进 的 反馈 搜索 优化 (RSO)， 它 带 有 内 间 
网 页 信息 搜索 技术 (如 谷歌 或 相似 服务 ) BOB A 








了 避免 混淆 , 注意 这 里 的 “ 








局 部 搜索 ”与 



























































上 了 很 多 局 发 式 的 算法 ,即使 实例 中 的 城市 有 成 


的 输入 。 本 章 将 介绍 局 部 
在线 的 自我 调整 机 制 。 为 


FE 何 关 

















Fro 这 里 的 搜索 是 为 了 提升 优化 问题 的 结果 ,如 果 可 能 就 搜索 最 优 值 , 否则 就 搜索 近似 值 。 
RSO 原则 在 连续 优化 和 多 目标 优化 领域 的 应 用 将 分 别 在 第 








E 第 23 章 和 第 24 章 讨论 。 
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22.1 ”基于 扰动 的 局 部 搜索 


一 个 基本 的 解决 问题 的 策略 ， 是 先 从 一 个 试探 性 的 解决 方案 开始 ， 尝试 多 次 小 幅度 的 修 
改 ， 从 而 改进 这 一 解决 方案 。 每 次 重复 时 , 对 当前 的 构 型 稍 做 修改 (扰动 ;， 并 对 需要 优化 的 
函数 进行 测试 。 如 果 新 的 解决 方案 比 原来 更 好 , 就 保留 这 一 变化 , 否则 就 再 尝试 男 一 个 变化 。 
需要 优化 的 函数 f(X) 在 某 些 领域 里 拥有 更 富 诗意 的 名 字 : 适应 度 函 数 、 优 度 函 数 、 目 标 函 
数 。 

图 22-1 展示 了 自行 车 设计 史上 的 一 个 例子 。 这 里 不 是 为 了 再 现 历史 ,毕竟 本 书 谈论 的 是 
LION 技术 ,而 不 是 自行 车 技术 。 第 一 种 模型 是 初始 模型 ， 只 有 一 个 轮胎 , 它 可 以 工作 , 但 它 
还 不 是 最 佳 的 。 第 二 种 模型 尝试 随机 添加 一 些 组 件 到 原 设计 中 ,这 下 情况 会 更 糟 。 此 时 可 以 
恢复 到 初始 模型 ， 并 尝试 其 他 变化 。 值 得 注意 的 是 ， 如果 坚 持 在 第 二 种 模型 上 继续 添加 一 些 
东西 , 最 终 可 能 得 到 第 三 个 模型 ， 从 可 用 性 和 安全 性 角度 来 看 , 显然 会 更 胜 一 筹 。 这 个 故事 给 
我 们 上 了 一 课 : 基于 微小 扰动 的 局 部 搜索 是 一 种 美味 的 食材 , 但 某 些 情况 下 需要 加 点 香料 让 
味道 更 好 。 









































































































































图 22-1 ”局 部 搜索 现实 生活 中 的 一 个 例子 : 如 何 构造 一 个 更 好 的 自行 车 ， 从 初始 
模型 ( 左 ) 到 一 个 更 糟糕 的 版 本 (中 ), 最 后 是 一 个 更 好 的 版 本 ( 右 ) 


另外 , 值得 注意 的 是 , 每 个 人 的 生活 都 是 优化 算法 的 一 个 例子 : 大 部 分 变化 是 局 部 的 , 戏 
剧 性 的 变化 确实 会 发 生 , 但 不 会 非常 频繁 。 想象 一 下 , 你 找到 了 一 个 伴侣 , 一 个 可 能 伴随 你 一 
生 的 伴侣 。 这 段 关 系 一 开始 的 局 部 变化 可 能 会 很 频繁 。 例 如 ， 你 可 能 想 要 说 服 你 的 伴侣 打扮 
更 得 体 , Aig Kaw, 或 改变 对 各 种 问题 的 看 法 。 为 了 增进 感情 , 能 以 更 轻松 的 方式 在 一 起 , 你 
可 能 要 忍受 一 些 不 好 的 变化 ， 比 如 容 妨 你 的 伴 但 看 周末 的 足球 比赛 。 或 者 你 最 终 认 为 这 些小 
的 变化 于 事 无 补 ， 出 路 是 激烈 的 多 样 化 或 重新 开始 一 段 关 系 〈 寻 找 更 好 的 伴侣 )。 

基于 扰动 一 个 候选 解决 方案 的 局 部 搜索 ， 就 是 可 以 应 用 简单 学 习 策 略 的 第 一 范式 情况 。 
接 下 来 定义 符号 。 是 搜索 空间 , XO EER C t 的 当前 解 。 NX O) 是 点 xO 的 
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BR, 通过 将 一 系列 基本 动作 jwo,… ,yw 应 用 到 当前 解 而 得 到 : 
N(X) = {X € X 使 得 和 = m(X®), = 0 
如 果 搜 索 空 间 由 给 定 长 度 工 的 二 进 制 串 来 确定 X = {0,1}", 那么 可 以 采取 的 行动 是 改变 CR 
补 或 翻转 ) 各 个 二 进 制 位 , 因此 M 等 于 串 长 度 Le 
局 部 搜索 从 可 容许 解 X0) 开始 ， 并 确定 一 个 轨迹 XO), XO), SHARES 
域 中 的 一 个 点 , 需要 最 小 化 的 函数 f 在 这 个 点 上 有 一 个 较 小 的 值 : 
























































Y 二 IMPROVING-NEIGHBOR( N(X®) ) (22.1) 


x) = Y 如 果 FY) < FXO) (22.2) 





XO 其 他 情况 〈 停 止 搜索 ) 


IMPROVING-NEIGHBOR 返回 邻 域 中 改进 的 元 素 。 在 简单 情况 下 , 它 是 具有 最 小 f 值 的 元 素 , 但 
也 存在 其 他 的 可 能 性 , 例如 遇 到 的 第 一 个 邻 域 改进 。 
如 果 没 有 邻 域 有 更 好 的 f 值 , 也 就 是 说 , 如 果 解 是 一 个 局 部 极 小 (local minimizer), 那么 
搜索 停止 。 请 注意 , 最 大 化 一 个 函数 f 等 价 于 最 小 化 -fo 像 所 有 对 称 的 情况 那样 ,这 其 实 会 
造成 术语 上 的 一 些 混乱 。 例 如, 了 最速 下 降 假设 了 最 小 化 观点 ,而 爬山 法 假设 了 相反 观点 。 这 本 
书 大 部 分 将 讨论 最 小 化 ， 局 部 极 小 值 (local minimum) 是 不 能 通过 移动 到 其 邻 域 进行 改进 的 
点 。 局 部 最 优 Cocal optimum) 是 既 可 以 用 于 最 大 化 和 又 可 以 用 于 最 小 化 的 术语 。 

局 部 搜索 出 奇 地 有 效 ， 因 为 大 多 数组 合 优化 问题 都 有 非常 丰富 的 将 解 X 和 f 值 联系 起 
来 的 内 部 构 型 。 当 输入 域 是 实数 R 时 , 可 以 进行 类 比 , 连续 可 微 函 数 f(z) 通过 梯度 下 降 (又 
名 最 速 下 降 ) 优化 。 顺便 提醒 一 句 ， 当 考虑 全 局 收敛 时 , 最速 下 降 不 一 定 是 最 好 的 方法 : 正如 
第 21 章 所 解释 的 , 无 论 是 离散 还 是 连续 , 贪心 并 不 总 会 说 。 

邻 域 (neighborhood) 适合 局 部 搜索 ， 如 果 它 反映 了 问题 的 构 型 。 例 如 ,如果 解 是 由 一 个 
排列 给 定 的 (在 旅行 商 问 题 中 被 访问 的 城市 的 排列 ), 描述 当前 解 的 三 进 制 串 中 的 单个 二 进 制 
位 的 变化 是 一 个 不 恰当 的 邻 域 选择 , 这 将 立刻 导致 非法 二 进 制 数 (illegal configuration), 这 一 
编码 不 对 应 于 任何 排列 。 为 了 得 到 一 个 更 好 的 邻 域 ， 可 以 交换 解 的 两 个 元 素 ， 并 保持 其 他 所 
有 位 固定 。 一 般 情 况 下 ,如 果 邻 域 的 f 值 与 当前 点 的 了 值 相 关 , 一 个 全 面 的 邻 域 检查 就 能 党 
握 局 面 。 如 果 起 点 是 个 很 好 的 解决 方案 , 平均 而 言 , 相 比 于 完全 无 关 的 随机 点 , 邻 域 中 更 容易 
找到 同等 质量 的 解 。 顺便 说 一 下 ,抽样 一 般 的 随机 点 比 抽样 邻 域 更 昂贵 ,前提 是 邻 域 的 了 值 
可 以 被 更 新 (“ 增 量 求 值 ”) 并 且 不 必 从 头 重 新 计算 。 
许多 值得 研究 的 优化 问题 需要 更 接近 全 局 最 优 的 逼近 ， 因 此 需要 更 复杂 的 方法 ， 以 便 继 
续 调查 搜索 空间 的 新 的 部 分 ， 即 搜索 多 样 化 和 探索 。 这 里 男 一 个 构 型 性 因素 可 以 起 作用 , 它 
涉及 局 部 极 小 值 和 相应 f 值 的 整体 分 布 。 在 许多 相关 的 问题 中 , 局 部 极 小 值 往往 聚集 在 一 起 ， 
而 且 好 的 局 部 极 小 值 往往 更 接近 其 他 好 的 极 小 值 。 看 上 去 有 希望 的 局 部 极 小 值 喜欢 待 在 一 起 。 
下 面 定 义 与 局 部 最 优 相 关 的 吸引 域 ， 它 是 通过 局 部 搜索 轨迹 被 映射 到 某 给 定 的 局 部 最 优 值 的 
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AR X。 用 水 来 类 比 ， 其 中 局 部 搜索 轨迹 就 像 是 水 受到 重力 吸引 而 留 下 的 轨迹 ， 而 吸引 域 就 
好 比 是 流域 , 即 由 分 水 线圈 定 的 区 域 , 降水 最 终 流入 某 一 湖泊 。 











fo) 


A 


局 部 极 小 值 














图 22-2 最 优化 问题 中 的 构 型 :“ 大 峡谷 ”特性 





话说 回来 ,如 果 局 部 搜索 在 一 个 局 部 极 小 值 处 停止 , 那么 将 系统 带 到 一 个 邻近 的 吸引 域 

可 能 远 比 从 随机 解 重新 开始 更 加 有 效 。 如 果 f 的 求 值 使 用 增 量 法 , 那么 经 过 一 系列 步骤 移动 
到 附近 的 吸引 域 , 总 比重 新 开始 完整 的 求 值 , 沿 着 一 条 可 能 很 长 的 下 降 轨 迹 来 到 另 一 局 部 最 
优 要 快 得 多 
SCR HUN 性 也 称 为 大 峡谷 特性 ( 见 图 22-2)。 为 了 更 直观 , 可 以 想象 在 连续 的 环境 中 有 

一 光滑 的 户 表 面 ， 带 有 一 些 往往 是 蔷 套 “分 形 ” 构 型 的 吸引 域 。 根 据 芒 德 布 罗 的 定义 ， 分 形 
一 般 是 指 “ 粗 糙 或 零碎 的 、 可 被 细 分 成 更 小 的 部 分 的 几何 形状 ， 其 中 每 一 部 分 都 是 〈 至 少 近 
似 ) 整体 的 小 尺寸 的 复制 ” 该 属性 也 称 为 自 相似 性 ” 
第 二 个 连续 的 类 比 是 用 傅 里 叶 变 换 来 分 析 含 有 不 同 波长 分 量 的 (周期 性 ) 函数 。 如 果 你 
不 是 傅 里 时 变换 的 专家 ， 想 想 通 过 散 焦 镜 头 来 看 某 幅 画 。 起 初 会 看 到 一 些 较 粗 略 的 细节 ， 例 
如 一 个 远 处 的 人 影 ， 然后 通过 聚焦 ,就 能 看 到 越 来 越 多 的 细节 : 脸 、 腹 膊 和 腿 ， 然 后 是 手指 、 
头发 等 。 相 同 的 类 比 也 存在 于 由 不 同 质量 的 扬声器 播放 的 音乐 ,扬声器 质量 越 好 ， 能 听 到 的 
频率 就 越 高 。 在 每 个 不 同 的 音阶 ， 声 音 不 是 由 随机 噪声 和 一 个 模式 构成 的 ; 一 个 不 平凡 的 构 
型 总 是 存在 的 。 这 种 多 标 度 (multi-scale) 构 型 ， 即 小 峡谷 被 拒 套 在 较 大 的 峡谷 里 ， 是 可 变 邻 
域 搜 索 (Vanable Neighborhood Search, VNS) 和 迭代 局 部 搜索 (Iterated Local Search, ILS) 
这 些 方法 的 基本 动机 。 例 如, 参考 文献 [9] 中 的 介绍 更 详尽 ,也 包含 对 相关 技术 的 讨论 , 或 者 
参考 文献 [8] 中 较 简 略 的 介 引 





















































































































































































































































@ 分 形 (fractal) 一 词 来 源 于 拉丁 语 fractus, 意思 是 “破碎 的 ”或 “断裂 的 ”。 
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22.2 ”反馈 搜索 优化 : 搜索 时 学 习 





索 优化 的 主要 动机 。 


许多 解决 问题 的 方法 是 
选择 和 参数 是 复杂 的 。 某 些 





通过 总 结 参 考 文献 [7,9,8] 中 的 拓展 主题 , 我 们 可 以 找到 从 简单 的 局 部 搜索 跨越 到 反馈 搜 

















一 定数 目的 选择 和 上 自由 参数 来 确定 的 , 而 适当 设置 和 调整 这 些 






































情况 下 ,这些 参数 通过 一 个 反馈 回路 进行 调整 ， 这 个 
作为 学 习 的 关键 组 件 : 开发 和 测试 不 同 的 选项 ， 直 至 获得 


回路 将 用 户 
的 质量 不 会 




















可 以 接受 的 结果 。 结 果 


























自动 传输 给 不 同 的 实例 ， 当 该 算法 必须 为 了 某 个 特定 的 应 用 进行 调整 时 ， 反 馈 回 路 可 以 要 求 


oH 


需要 在 算法 的 调整 阶段 进行 详尽 











的 “ 试 错 ” 过 程 。 机 器 学 习 领域 有 丰富 多 样 的 
领域 ， 开 发 机 器 学 习 方法 。 这 种 方式 消 
业 率 。 相 反 , 人 们 现在 的 任务 更 重 








“设计 原则 ”可 用 于 启发 式 参数 调整 
除了 人 工 干预 , 但 并 不 意味 着 研究 人 员 会 有 较 高 的 失 
: 算法 开发 者 必须 将 其 智能 专长 传输 给 算法 本 身 , 这 一 任务 







































































那么 这 一 代价 是 值得 的 。 

















完整 和 明确 的 文档 保证 结果 的 可 重复 性 。 算 法 变 得 自 




















述 。 算法 的 复杂 性 会 增加 , 但 如 果 以 下 两 个 目标 都 能 达到 ， 





























容 (self-contained)， 其 质量 可 以 











由 设计 者 或 特定 用 户 来 独立 判断 。 这 一 要 求 对 科学 意义 重大 ， 因 
评价 是 至 关 重 要 的 。 软件 文 档 的 广泛 使 用 进一步 简化 了 测试 , 启发 式 算法 的 再 








变 得 更 加 简单 。 
e 
HR 





自动 化 。 原 本 耗 时 的 手工 调节 阶段 如 今 被 














(和 软件 ) 的 设计 者 。 


反馈 搜索 优化 (Reactive Search Optimization, RSO) 主张 将 在 线 机 器 学 习 技术 融 


式 搜索 , 用 以 解决 复杂 的 优化 问题 。“ 反 馈 ” 这 个 词 所 上 暗示 的 是 , 为 了 在 线 自我 调节 和 动态 适 























为 在 科学 中 ,客观 的 
利用 也 
































目 动 过 程 所 取代 ,如 图 22-4 所 示 。 注意 , 通 








\ 有 最 终 用 户 才 会 从 自动 调节 过 程 中 受益 。 相反 , 算法 设计 者 将 面临 更 长 、 
的 开发 阶段 。 世上 没有 免费 的 午餐 ; BAR 





E 并 没有 消失 ， 只 是 从 决策 者 转移 到 





























入 局 发 











应 ， 对 于 通过 内 部 反馈 环 路 进行 的 搜索 ,存在 一 个 即时 的 反应 。 在 RSO 中 , 过 去 的 搜索 历史 
动 的 方式 被 用 于 自 适 应 : 在 搜索 过 程 中 ， 该 算法 保持 


FTE AAR 
ORAS E OU a E A PY 








a) PS 2) IT AR 


累 的 知识 ， 以 自 











其 过 去 的 经 验 时 执行 。 
反馈 搜索 优化 的 一 


你 设置 一 些 工 人 











FBR ned. H 























个 使 


























ls y 


部 灵活 性 ,但 这 种 调节 是 目 动 的 ， 当 算法 在 单 
因此 机 器 学 习 是 做 RSO 这 碗 汤 的 必要 成 分 , 如 图 
场景 是 某 个 系统 (电子 系统 、 工 三 、 卡 车 车 队 、 业 务 流程 ) 要 求 
PR. 行程 计划 、 程序 ) 以 改善 其 
可 能 给 出 更 好 或 更 坏 的 结果 (由 生产 速度 、 净 利 》 












































一 的 实例 上 运行 

















使 用 








22-3 所 示 。 

















功能 。 依 参数 设置 而 定 ， 系统 
耗 、 客 户 满意 度 等 来 度量 )。 


























为 了 优化 结果 , 我 们 执行 一 个 简单 的 循环 : 设置 参数 , 观察 结果 , 然后 以 战略 性 和 智能 的 


aS 





方式 改变 参数 ， 



































到 找到 一 个 合适 的 解决 方案 。 该 方法 的 智能 性 来 自 RSO 组 件 , 基于 正在 进 





行 的 搜索 过 程 收集 到 的 信息 ， 该 组 件 决定 下 一 步 是 什么 。 为 了 有 效 运 作 ， 反 馈 搜 索 优 化 使 用 





记忆 和 智能 ， 








以 针对 性 和 集中 的 方式 来 改进 解决 方案 。 


反馈 搜索 优化 采用 机 器 学 习 和 统计 学 
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的 思路 和 方法 , 特别 是 强化 学 习 , 主动 或 查询 学 习 ， 以 及 神经 网 络 。 

反馈 搜索 优化 中 的 隐喻 大 部 分 来 自 人 类 个 体 的 经 验 。 它 的 座右铭 是 “ 边 干 边 学 ”。 如 前 所 
述 , 实际 问题 有 丰富 的 结构 。 当 我 们 在 搜索 空间 中 测试 许多 不 同 的 解决 方案 时 , 模式 和 规律 就 
会 出 现 。 人 类 大 脑 能 很 快 从 中 学 习 ， 并 基于 先前 的 观察 做 出 关于 未 来 的 决定 。 这 一 类 比 是 将 
在 线 机 器 学 习 技 术 搬 入 到 RSO 的 优化 引擎 主要 的 灵感 来 源 。 模 因 算 法 (memetic algorithm) 
对 于 学 习 有 着 相似 的 关注 点 ,不 过 该 算法 关注 文明 的 进化 ,描述 社会 如 何 随 着 时 间 的 推移 发 
展 , 而 不 是 个 体 的 能 
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~N, 
Dams. # | 

















图 22-4 AA ARIE (selftuning) 功能 的 算法 (例如 RSO) 让 最 终 用 户 的 生活 更 简单 。 解 决 
复杂 问题 不 再 需要 技术 专长 ， 而 是 面向 更 广大 的 最 终 用 户 群 体 ( 改 编目 参考 文献 [9]) 
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今天 ,以 自然 界 和 生物 为 灵感 的 优化 算法 隐喻 比比 多 是 。 某 种 程度 上 令 人 惊讶 的 是 ， 这 
些 隐喻 大 部 分 来 自 遗 传 和 进化 , 或 者 从 简单 有 机 体 互动 涌现 出 的 集体 行为 ,， 而 这 些 有 机 体 基 
本 都 没什么 学 习 能 力 。 这 不 由 得 令 人 猜想 是 否 有 关 让 -雅克 ”上 户 梭 所 持 的 偏见 , 他 相信 自然 状 
态 下 的 人 性 是 好 的 , 但 是 社会 使 人 变 坏 ; 或 者 这 和 好 莱 坞 商业 电影 所 秉承 的 “对 抗 自然 法 则 
的 坏人 ”的 原则 一 脉 相 承 。 但 隐喻 会 带 我 们 偏离 主 方向 : 我 们 是 实用 方法 的 坚定 支持 者 , 一 个 
算法 是 有 效 的 ， 是 因为 它 出 色 地 解决 了 问题 并且 不 需要 耗费 太 多 精力 来 调整 ， 而 不 是 因为 
它 对 应 于 人 们 喜好 的 那 种 精巧 、 怪 诞 或 引 人 遐 想 的 类 比 。 此 外 ,至 少 对 于 研究 人 员 来 说 ， 大 
多 数 情况 下 如 果 有 办 法 来 分 析 一 个 算法 的 行为 ， 并 解释 它 是 为 何 有 效 以 及 何 时 有 效 ， 那 么 它 
在 科学 上 就 是 有 趣 的 。 弗 雷 德 ” 格 洛 弗 开创 性 的 论文 谈论 了 禁忌 搜索 ,分 散 搜索 和 路 径 重 链 ， 
以 及 相关 的 元 局 发 式 ， 见 参考 文献 49,，51] 和 有 趣 的 文献 150]。 还 有 一 些 令 人 振奋 的 文章 ,你 
可 能 想 要 读 读 , 看 一 看 相关 主题 ， 比 如 模 因 算法 8B、 进 化 神经 网 络 上 3、 元 局 发 式 5 ,还 有 
性 能 预测 和 自动 调节 169 。 







































































































































































22.3 ”基于 禁忌 的 反馈 搜索 优化 


参考 文献 [9] WH, RSO 原理 可 用 于 许多 算法 参数 的 在 线 自 校正 。 这 一 原理 最 初 应 用 于 
基于 禁止 (prohipition) 的 局 部 搜索 领域 , 而 现在 它 已 成 为 一 个 流行 术语 一 一 禁忌 搜索 (tabu 
search ) 。 

使 用 禁忌 以 鼓励 创新 和 多 样 化 的 想法 ， 即 鼓励 决策 者 、 工 程 师 或 设计 师 从 根本 上 考虑 新 
蔡 代 品 的 理念 ， 深 深 根 植 于 搜索 的 实践 中 。 康 拉 德 ” 洛 伦 次 ,这 位 来 自 澳大利亚 的 诺 贝 尔 奖 
得 主 和 现代 行为 学 的 创始 人 说 :“ 每 天 早餐 前 都 抛弃 一 个 心爱 的 假设 . 这 对 从 事 研 究 的 科学 家 
来 说 是 很 好 的 晨练 . 这 使 他 年 轻 .” 这 人 句 话 漂亮 地 阐述 了 一 个 事实 : 为 了 拥有 真正 的 创造 ， 必 
须 禁止 旧 的 解决 方案 。 在 前 面 的 例子 中 ， 人 们 必须 停止 考虑 独 轮 车 ,而 这 最 终 促使 自行 车 得 
以 实现 ! 

如 上 所 述 ， 局 部 搜索 在 允许 的 搜索 空间 中 生成 轨迹 XO, KX 的 后 继 是 从 X 的 邻 域 
N(X) 中 选 出 来 的 ，N(CX)  X 的 一 个 子 集 。 如 果 对 于 所 有 的 Ye N(X), F(X) < fY), 7 
AX 点 相对 于 N 是 局 部 最 优 , 或 者 局 部 极 小 。 在 下 面 的 讨论 中 , 考虑 xe 包含 有 限 长 度 工 的 
二 进 制 串 的 情况 , 即 a = {0,1}%, 并 且 通 过 把 字符 串 X = [zi1,… ,zi,… or] 第 i 位 进行 改 
变 的 基本 操作 jw (i = 1,… , 工 ) 得 到 邻 域 : 






































































































































ilf Ti , 25) = [zl Preece ,TL| (22.3) 


其 中 z 是 第 i 位 的 否定 : zi = (1 一 zi)。 

RSO 方法 使 用 一 个 迭代 的 修正 局 部 搜索 算法 , 让 搜索 偏向 f 值 更 小 的 点 , 它 包含 了 反馈 
禁忌 策略 (reactive prohibition strategy), 不 鼓励 重复 访问 构 型 。 在 迭代 的 每 一 步 ， 选择 的 搜 
索 指 向 在 邻 域内 使 得 损失 函数 f 值 最 小 的 点 。 即使 关于 当前 点 的 值 是 递增 的 , 也 需要 移动 ， 
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继而 远离 f 的 局 部 极 小 值 。 

















就 源 于 这 样 的 禁用 操作 )。 




















日 某 个 移动 被 应 用 , 那么 它 的 逆向 移动 暂时 会 被 禁用 (“禁忌 ” 











进一步 来 讲 , 在 一 个 给 定 的 搜索 循环 t 中 , 移动 的 集合 M 被 划分 为 禁忌 集合 TO 和 准 








WRA AO, 带 括 号 的 上 标 表示 























其 所 处 的 搜索 循环 。 最 初 , 搜索 开始 于 一 个 起 始 的 构 型 XO, 











该 构 型 是 随机 生成 的 ， 且 所 有 的 移动 路 径 都 是 允许 的 : AO =M, TO = 0。 然后 通过 应 用 集 
AAO 中 最 佳 的 准许 移动 vt， 生成 搜索 的 路 径 XO: 





x G+) 二 


p(x) 























Hh pO = arg min f(r(X)) 
vEAlt) 


孤立 地 看 ， 这 个 “修正 贪心 搜索 ”原则 能 生成 循环 〈cycle)。 例 如 ， 如 果 现 在 这 一 点 上 
的 X 是 一 个 严格 的 局 部 极 小 值 ， 那 么 下 一 个 点 的 损失 函数 值 一 定 会 变 大 : f(X) = 























FOXO) > F(X), mE 


两 步 就 回 到 了 最 开始 的 点 : 


二 











下 一 步 











可 能 沿 着 反方 向 移动 (WO) = pO), 因此 沿 着 上 述 


X) = yD (XD) = yO o pO(XM) = x® 


此 时 ,如 果 准 许 的 移动 集合 是 相同 的 ， 那么 这 个 系统 将 会 永远 困 在 一 个 长 度 为 2 的 循环 中 。 


这 个 例子 中 , WAR ETT H5 




















pO! 在 t 十 1 次 迭代 被 禁止 , 那 就 可 以 避免 这 个 循环 。 通常 来 








说 , 所 有 最 近 一 段 时 间 内 搜索 移动 的 反方 向 都 应 该 在 一 定时 间 段 T 内 被 禁止 。 如 果 用 二 进 制 








串 表示 一 个 移动 及 其 反方 向 移动 ， 就 











日 














HE 


个 移动 被 禁止 ， 当 且 仅 当 它 在 最 近 的 r> (t- T”) 

















时 间 内 被 执行 过 。 这 个 时 间 段 是 有 限 的 ， 因 为 禁止 的 移动 对 于 后 续 搜索 最 优 值 的 过 程 是 必要 





的 。 在 RSO 中 , 禁止 时 间 段 TO 与 迭代 时 间 t+ 有 关 。 




















搜索 轨迹 上 禁止 移动 的 多 样 化 影响 ,已 经 在 禁忌 和 多 样 化 的 基本 关系 中 得 到 了 解释 ,并 
在 参考 文献 [18] 中 得 到 了 证 明 。 令 H(X, Y) 为 两 个 二 进 制 串 X 和 YY 之 间 的 汉 明 距离 , 定义 为 

















X 和 了 之 间 不 同 的 二 进 制 位 数 。 现 在 ,假设 只 能 执行 准许 的 移动 , H. T WE T < (n 一 2)， 
保证 在 每 次 迭代 中 至 少 有 两 个 移动 是 被 准许 的 , 那么 可 以 得 到 下 列 关 系 。 
。 一 个 点 与 其 后 续 治 着 轨迹 人 十 1 步 的 所 有 点 的 汉 明 距离 五 是 严格 递增 的 : 






























































A(X), x®)=7,7<T41 


。 该 轨迹 上 的 最 小 重复 间隔 RA AT +1): 


x) XO > R22T+1) 


上 述 关 系 清晰 地 表明 禁忌 如 何 关 联 到 多 样 化 : T 越 大 , 距离 H 就 越 大 , A 是 能 够 返回 已 
访问 的 点 之 前 必须 经 过 的 轨迹 的 距离 。 不 过 了 不 能 太 大 , 否则 起 始 阶 段 过 后 ,允许 移动 的 个 
度 。 





数 会 大 大 减少 , 从 而 降低 了 移动 的 自 | 
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上 述 对 禁忌 与 多 样 化 





number(X) 将 二 进 制 的 X 转化 为 十 进 


关系 的 描述 表明 , 每 当 字符 串 中 的 一 个 二 进 制 位 改变 后 , 它 会 被 冻结 
T 个 迭代 循环 。 图 22-5 展示 了 构 型 XO 的 演变 过 程 , 要 优化 的 函数 是 f(X) = number(X)， 



































































































































站 的 整数 。 禁忌 间隔 了 等 于 3。 


和 迭代 a F(X) H (X®,X0) 
0 0|1010I0101010 10 0 0 
1 0|o10 1 1 
2 0|1010 3 2 
3 0} 0] 0 T 3 
T4+1 一 一 4 0 1010 15 4 
5 oļolo 14 3 
6 0} 0 fo 12 2 
7 0} 0/0 8 1 
2(T+1) 
8 0/0/0010] 0/010 0 0 
图 22-5 ”禁忌 间隔 T 和 多 样 化 之 间 关 联 的 示意 图 , SPI (xX, XO) 得 到 , 本 








HE T = 3。 本 图 改编 自 参 考 文献 [18] 


以 下 的 物理 类 比 形 象 地 说 明了 这 一 现象 : 当 某 个 二 进 制 位 被 改变 后 ， 就 将 一 个 冰 块 放 在 


它 的 上 面 , 使 得 这 个 二 进 制 位 在 未 来 的 了 次 迭代 中 不 会 再 改变 。 在 图 22-5 F, RAR” 


进 制 位 用 阴影 框 表 示 , 说 


























明 该 二 进 制 位 不 能 改变 。 本 例 中 , 起 始 的 构 型 是 全 为 0 的 二 进 制 串 ， 
即 一 个 局 部 最 优 。 在 第 0 次 迭代 ,最 优 的 移动 改变 了 最 后 一 位 的 值 。 在 第 1 次 迭代 ,最 后 一 
位 的 值 被 冻结 了 , 而且 最 优 的 准许 的 移动 改变 了 倒数 第 二 位 的 值 。 二 进 制 串 的 汉 明 距离 在 第 



































(T+ 1) 次 迭代 时 达到 最 大 , 之 后 减少 , 并 且 第 2(T 十 1) 次 迭代 时 
成 一 个 上 述 的 循环 时 ， 从 起 始 构 型 开始 到 五 = T+ 1 所 经 过 的 构 型 ， 和 从 五 = 了 T+1 开始 





























， 起 始 构 型 重新 出 现 。 当 形 








降低 到 0 所 经 过 的 构 型 是 不 同 的 。 换 句 话说 , 这 样 的 轨迹 看 起 来 就 像 是 一 个 围绕 局 部 极 值 点 


WER, 而 且 没 有 人 会 浪费 CPU 时 间 去 访问 已 访问 过 的 构 型 。 通常 来 说 , 当 经 过 一 个 局 部 最 








优 后 ， 可 以 通过 访问 其 他 

















所 有 位 于 其 吸引 域 ( 即 被 局 部 搜索 动力 系统 收敛 到 该 最 小 值 的 所 有 点 ) 内 的 点 都 无 须 再 
道 它们 的 了 值 大 于 等 于 该 局 部 最 小 。 T 值 的 选择 需要 保证 ， 当 汉 明 
局 部 最 小 的 新 吸引 域 移动 。 








实际 上 , 通过 定义 可 以 知 


距离 达到 全 十 1 后 , 搜索 轨迹 朝 着 一 个 可 能 存在 更 优 





局 部 最 优 得 到 一 个 更 好 的 目标 值 。 当 然 ， 

















一 旦 发 现 了 一 个 局 部 最 小 ， 
了 访问 。 
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因 




















的 循环 不 上 





为 所 需 的 最 小 汉 明 2 
程 中 同时 寻找 合适 的 值 ， 
FRÆ 105,16。 此 外 ,对 于 给 定 的 问题 (xX, f), 如 果 没 有 关于 搜索 路 径 概率 | 
知识 的 话 , T 的 选择 将 是 非常 困难 的 。 如 果 搜 索 空间 是 非 齐 次 的 , T 


TO 








a3 


通 








过 反馈 的 (reactive ) 方式 来 决定 T。 基本 下 


























合适 的 , 但 在 另 一 个 区 域 又 可 

















AA 
能 是 


不 合适 的 。 例 如 , AI TAA, 不 





Fj 








KK, 只 有 一 小 部 分 移动 是 被 准许 的 ， 导致 搜索 不 充分 。 








RSO ÆR AWE 
当前 问题 的 局 部 结构 的 ( 
确定 其 能 逃离 某 局 部 最 小 吸引 域 的 最 小 








FP 使 用 一 个 简单 的 机 制 来 自 适应 地 改变 了 值 , 所 











值 ， 如 图 





因此 称 作 “反馈 ”)。 基 本 的 设计 原则 是 , 对 于 一 个 给 定 
22-6 所 示 。 这 个 基本 原则 是 : T 最 初等 


离 〈 给 定 吸引 域 的 某 种 吸引 半径 ) 是 未 知 的 ， 所 以 需要 在 搜索 过 
4 村 


Ell AN BE UE ERR 
上 的 先 验 























的 大 小 在 某 个 区 域 HE 
能 避免 出 现 循环 ; 有 时 了 





以 TW 值 始终 是 适合 
的 局 部 构 型 ， 








F 1 ( 仅 茜 止 返 回 前 一 个 构 型 ); 如 果 搜 索 轨 迹 陷 在 一 个 局 部 最 优 的 吸引 域内 (不断 地 访问 已 


访问 过 的 点 ), T 值 将 不 断 增 大 ; 如 果 遇 到 了 从 没 访问 过 的 
优 的 吸引 域 , 了 值 将 不 断 减 小 。 如 果 该 问 











题 只 








优 , 那么 RSO HITE 


FE, 然后 尝试 去 搜索 一 个 更 优 的 点 。 必 须 指出 的 是 , 现实 问题 


一 个 局 部 搜索 方法 转化 成 有 效 且 高 效 的 求解 算法 这 一 过 程 中 , RSO 是 至 关 习 
搜索 轨迹 〔 增 力 








日 就 没有 那么 明显 , 但 是 使 月 





日 也 无 妨 。RSO 将 会 找 H 








区 域 , 这 说 明 进 入 了 另 一 个 局 间 
有 一 个 局 部 最 优 ， 即 该 局 部 最 优 也 就 是 全 


最 
=A= 


同 最 
tH 这 个 局 部 最 优 , 并 储 





























ITE) 














P 存 在 许多 局 部 最 优 ,所 以 将 

















图 22-6 RSO 自 适 应 禁忌 。 图 中 描述 了 3 个 局 部 最 优 和 优化 函数 的 过 程 ( 虚 线 )。 从 一 个 局 部 
最 优 开始 ，RSO 在 该 吸引 域内 不 断 搜索 ， 越 来 越 远 离 该 最 优点 ， 直 到 进入 男 一 个 吸引 
域内 

RSO 的 实现 方案 需 满足 搜索 过 程 中 的 开销 (额外 的 CPU 时 间 和 内 存 ) 限制 ， 即 在 整个 


搜索 过 程 中 每 次 迭代 的 开销 基本 相等 








, 只 需 少量 











O 散 列 (hash) 是 一 个 有 效 的 方法 , - 
数据 和 关键 字 ), 所 以 每 次 检索 数据 的 时 间 
关键 字 ) 转换 成 大 小 有 限 的 整数 ， 即 散 列 值 ， 所 
存 地 址 , 于 是 数据 块 的 检索 是 即时 


这 一 情况 , 可 以 使 用 链表 ( 





也 许 非 计算 机 领域 的 大 多 数 研 究 者 并 不 了 解 ， 





的 CPU 周期 和 内 存 字 节 。 
它 为 所 有 数据 都 建立 了 字典 ( 连 





借助 散 列 函数 “ 存 





平均 来 说 是 常数 级 的 。 散 列 函数 是 一 个 决定 性 程序 ， 














的 : 获得 散 列 值 ， 到 相应 的 内 存 地 址 中 读 取 数 据 。 针 对 不 同 
chaining) 来 解决 , 即将 包含 不 同 数据 块 的 一 个 链表 关联 到 内 存 











以 当 数据 改变 时 ， 其 散 列 值 也 会 改变 。 一 个 数据 块 的 散 列 


已 将 任意 数据 块 (这 里 称 
值 可 以 作为 其 
t 享 相同 的 散 列 























的 关键 字 








也 址 上 。 
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储 和 检索 相关 数据 ,每 次 近代 的 额外 内 存 开销 可 以 减少 到 几 字 节 , 运行 时 间 可 以 减少 到 只 需 
从 当前 构 型 计算 内 存 地 址 ， 并 执行 少量 的 变量 判断 和 更 新 操作 05。 带 禁忌 的 RSO 已 经 被 应 
用 于 许多 问题 中 ， 比 如 组 合 优化 、 寻 找 连续 函数 的 最 小 值 和 精 粒 度 亚 符号 机 器 学 习 ， 部 分 列 
表 可 以 在 参考 文献 [8] 找到 。 

如 果 读 者 对 RSO 感 兴趣 , 可 以 看 看 参考 文献 [9] 和 参考 文献 [60] 中 提 到 的 关于 RSO 的 
所 有 应 用 实例 , 或 者 访问 本 书 在 线 社区 : https://intelligent-optimization.org/。 















































E M 


局 部 搜索 是 一 种 简单 有 效 的 方法 ， 能 用 以 确定 离散 优化 问题 的 改进 方案 。 它 生成 变化 
的 序列 , 每 一 个 变化 都 是 局 部 的 ， 即 只 在 有 限 的 部 分 内 影响 当前 的 解决 方案 。 它 成 功 的 原 
因 在 于 , 许多 问题 有 着 丰富 的 构 型 “局 部 极 小 值 聚 在 一 起 ,又 名 大 峡谷 假说 ), 并 且 相 比 于 
对 一 个 全 新 的 解决 方案 重新 进行 求 值 , 在 当前 解决 方案 的 邻 域 采用 增 量 求 值 会 更 快 。 

局 部 搜索 停 在 局 部 最 优点 ， 此 时 不 存在 可 以 改进 的 邻 域 , 因此 当前 的 搜索 轨迹 陷 在 局 
部 最 优 里 。 此 时 需要 额外 的 多 样 化 的 手段 从 局 部 吸引 域 逃脱 。 

反馈 搜索 优化 RSO) 在 优化 的 过 程 中 使 用 学 习 和 上 自 适应 ， 使 搜索 技术 可 以 根据 正在 
求解 的 实例 和 当前 暂 定 解决 方案 的 局 部 特点 进行 微调 。RSO 可 以 设计 智能 模块 来 监督 基 
本 的 局 部 搜索 过 程 ， 又 可 以 平衡 多 样 化 和 单一 化 , 还 可 以 对 优化 过 程 本 身 的 组 件 “ 元 优化 
或 元 局 发 式 ) 进行 优化 。 

值得 注意 的 是 ， 反馈 (reactive) 这 一 术语 在 本 书 语 境 中 理解 为 “对 刺激 的 即时 啊 应 ”， 
也 可 以 是 积极 的 “对 于 未 来 的 问题 、 需 要 或 者 改变 的 预期 做 出 的 行动 。 ”事实 上 , 为 了 得 到 
反馈 算法 , 设计 者 需要 积极 行动 起 来 , 通过 适当 地 将 模块 插入 算法 ,赋予 这 一 算法 上 自主 巴 
应 的 能 力 。 换 名 话说 ,反馈 搜索 优化 算法 需要 积极 的 算法 设计 者 。 
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每 当 隐 修 院 有 重要 的 事务 时 ， 院 长 要 召集 全 体 隐 修士 向 他 

们 说 明 将 要 处 理 的 事务 。 在 听取 众 弟兄 的 建议 之 后 ， 他 独自 考 

虑 ， 做 出 他 认为 最 有 利 的 决定 。 我 们 之 所 以 主张 召开 全 体会 议 ， 
是 因为 天 主 常常 启示 年 轻 人 什么 是 良策 。 

一 一 圣 本 笃 会 规 ， 530 一 550， 卡 西 诺 山 














如 前 所 述 , 找到 局 部 最 优 解 的 局 部 搜索 (LS), 是 一 种 解决 复杂 离散 优化 问题 的 有 效 构建 
组 件 , 并 且 局 部 极 小 陷阱 可 以 通过 反馈 搜索 优化 解决 。 本 章 中 将 扩展 RSO 以 解决 连续 优化 问 
题 , 也 就 是 说 , 通过 局 部 搜索 团队 来 解决 输入 变量 是 实数 的 问题 。 术 语 CoRSO KR, 基于 
战略 性 地 使 用 记忆 以 及 自 适 应 局 部 搜索 合作 团队 , 来 解决 连续 优化 问题 的 框架 。 
注意 CoRSO 是 一 种 方法 论 ， 而 非 单一 的 技术 ， 因 此 相关 的 特定 技术 各 自 有 不 同 的 名 
FM, CoRSO 的 三 大 组 成 部 分 是 : 主管 区 域 的 多 重 局 部 搜索 器 (输入 空间 的 部 分 ); 相互 协 
调 ; 连续 “反馈 ”学 习 和 适应 。CoRSO 采用 了 一 个 社会 学 /政治 学 上 的 范式 。 

每 个 局 部 搜索 成 员 负 责 一 个 区 域 ( 输 入 区 域 )， 生 成 样本 ,并 决定 何 时 与 其 他 成 员 合作 。 
构 型 空间 的 组 织 化 细 分 能 够 适应 在 线 学 习 方 法 中 问题 实例 的 特征 。 通 过 全 局 收集 的 信息 进行 
相互 协调 ， 可 以 更 容易 地 识别 出 构 型 空间 中 有 希望 的 区 域 , 并 分 配 相应 的 搜索 力度 。 


































































































23.1 局 部 搜索 过 程 的 智能 协作 223 
23.1 局 部 搜索 过 程 的 智能 
为 了 确定 符号 和 搜索 方向 , 假设 我 们 的 目标 是 最 小 化 一 个 定义 在 一 组 连续 变量 x 上 的 函 

















BL f(x). a 
技术 。 根 据 提 eee 
快速 的 局 部 启发 式 搜索 ， 








REN XO 中 产生 搜索 轨迹 
从 一 组 邻近 点 中 选择 ，3 
局 部 搜索 的 有 效 性 , 动力 源 自 人 < 
么 在 邻近 区 域 找 更 小 值 的 点 就 


















































E 组 机 制 的 解决 方案 


























向 也 数值 较 小 的 点 。 1l 


















































虽然 功能 强大 , 但 LS 








最 优点 (或 区 域 ) 周围 所 














迹 “ 像 流向 流域 底部 有 





的 问题 , 但 这 些 是 完全 无 记忆 性 (memory-less) 的 : 


ee 从 不 同 的 初始 点 

























































































ba 算法 (memetic algorithm, MA) 的 强大 优化 
， 模 因 算法 是 基于 种 群 的 全 局 搜索 ， 同时 结合 

(甚至 达到 局 部 最 小 )。 
改进 解决 方案 eo E a 
解 空 间 依 迭 代 计 数 器 t 的 不 同 而 不 同 , 使 得 
正如 前 文 所 述 ,许多 实际 优化 任务 的 随机 
Rit ay BZ aA. WREAK CARDS, 那 





下 一 个 点 xX (t+) 


i uses 也 不 一 定 是 全 局 最 优 。 该 范式 是 从 某 个 局 部 
一 个 离散 动力 系统 在 解 空间 中 产生 一 条 轨迹 ， 
发 重复 运行 LS， 可 以 部 分 角 
以 前 的 搜索 信息 不 会 影响 以 后 的 搜索 。 


该 轨 


FE OR Jy BBR ZS 


许多 情况 下 , 一 个 给 定 的 优化 实例 有 不 同 层 次 的 结构 特征 ， 如 第 22 章 中 图 22-2 JT RE 


的 大 峡谷 特性 。 如 果 将 初始 搜索 空 
的 吸引 子 一 一 吸引 域 
部 最 优 值 的 信息 可 以 用 3 















































$ 示 将 来 的 搜索 工作 。 








易 发 现 其 他 的 高 质量 的 局 部 时 


问 过 的 点 。 


ih, WA EAS OBL 














aid bias 组 吸引 子 ( 局 部 最 小 值 ), 可 能 的 情况 是 ， 
往往 有 相关 的 值 。 这 意味 着 先前 发 现 的 局 
如 果 初 始点 靠近 有 和 希望 的 吸引 点 , 那么 更 容 





























附近 




















在 连续 Eh be hb ed inant PEATE 














索 。 然 而 在 并 行 的 局 间 





Fh ， 多 个 局 部 搜索 被 激活 ,信息 通过 不 同 的 搜索 






































传递 。 本 书 的 观点 是 , 区 另 





























而 在 于 使 用 信息 的 不 同方 法 。 
行 计算 资源 的 战略 配置 。 一 个 LS 流 将 被 激活 、 A 
这 些 信息 是 在 一 个 中 央 存 储 器 里 , i 

MA 适合 出 现在 这 张 图 



















































































表面 以 寻找 成 功 的 初始 点 , 而 LS 机 制 (类 似 个 人 的 终身 学 习 ) 使 选中 的 个 体 充 分 表达 自 














潜力 , 通过 在 单个 搜索 范围 中 达到 局 部 最 优 来 实现 。 











标准 的 MA 所 采 





循 选择 /复制 、 交 叉 和 变异 的 生物 学 范式 。 
一 组 并 行 的 搜索 流 〈 又 名 总 体 ) 积累 的 关于 适应 度 表面 
特定 操作 , 实际 上 不 一 定 会 优 于 人 为 的 直接 机 制 。 毕 竞 ， 
可 以 通过 基因 传 给 子孙 后 代 , 但 生物 条 件 至 今 未 


这 一 传递 由 更 直接 的 教育 机 制 来 完 





















































| 的 保障 ， 从 而 避免 回落 至 以 前 访 


i 的 信息 会 从 过 去 转移 到 未 来 的 搜 
t 享 部 分 结果 来 
` 在 于 串 行 和 并 行 (可 以 很 容易 地 使 用 串 行 机 来 模拟 并 行 过 程 )， 
这 些 方法 利用 一 组 局 部 搜索 流 积累 的 信息 ,为 不 同 的 LS 
或 者 更 改 , 这 取决 于 共享 的 信息 库 , 无 论 
还 是 以 分 布 式 的 形式 存储 (但 也 进行 周期 性 的 信息 交换 )。 
基因 所 描述 的 进行 遗传 进化 的 个 体 ， 


流 进 


探索 适应 度 














己 的 





























用 的 遗传 算法 CGA) 遵 














虽然 GA 对 于 许多 问题 是 有 效 的 , 但 是 对 于 共 



































k h 


的 信息 而 言 , 根据 生物 遗传 机 制 的 某 些 
每 个 人 都 希望 一 生 学 习 到 的 数学 知识 


IM Fy FS FEAL] (Lamarckian mechanism): 
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CoRSO 背后 的 基本 诛 理 是 设计 某 种 机 制 ， 这 种 机 4 
效 地 管理 许多 局 部 搜索 流 T. 我们 可 以 不 局 限 了 
组 遵循 社会 学 和 政治 学 范式 搜索 数据 流 。 不 同上 





























来 协调 
效 的 政治 团体 的 组 织 方 式 , 例如 僧人 














日 的 和 谐 社 区 。 























23.2 CoRSO: 一 个 政治 上 的 类 比 
我 们 喜欢 从 人 类 经 验 中 获得 的 类 比 ， 甚 于 动物 或 遗传 上 的 类 比 。 政 治 是 一 个 团体 做 出 集 








体 决 定 的 过 程 。 








出 一 个 行动 方案 来 引导 决策 并 得 到 合 到 














F GA, 随 











HRA BE ret SEP ARE, 能 
意 尝试 不 同 的 和 更 有 组 织 性 的 方法 ， 





















































项 开支 的 优先 次 序 ， 以 及 基于 它们 所 产生 的 影响 进行 选择 。 











局 部 搜索 是 一 种 有 效 的 构建 模块 ， 可 
步 构 建 更 好 的 解决 方案 。 BER 
智能 。 假定 每 个 专家 将 专业 知识 用 在 已 制定 的 初步 解决 方案 j 
各 目的 改进 方案 。 这 样 做 的 目的 是 从 战略 


解 


题 


wat 


p-a 
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能 数据 , 来 找到 优异 的 解决 方案 。 





Z 
的 
出 





EX 












































的 搜索 过 程 之 间 的 信息 转移 ， 就 像 高 








团体 可 以 是 公民 政府 , 也 可 以 是 企业 、 学 术 和 宗教 机 构 等 。 问 题 的 焦点 是 商议 
EE 的 结果 。 政 治 过 程 则 在 制定 重要 的 组 织 决策 , 例如 各 





用 于 寻找 问题 实例 的 初始 解 ， 并 通过 移动 到 相 邻 的 





























分配 工 作 ， 以 便 根据 不 同 专 











经 典 的 模 因 算法 从 一 个 有 效 的 局 部 搜索 开始 ,借用 杂交 遗传 机 











昌 织 机构， 比如 公司 ， 公 司 中 的 每 一 员 都 拥有 解决 问 
EF， 那么 一 段 时 间 后 应 该 会 
家 能 力 积累 的 性 





是 来 隐 式 地 积累 过 去 局 部 


搜索 的 信息 ,通过 传统 的 生物 激励 的 机 制 : 选择 /复制 、 突 变 和 交叉 。 第 一 个 发 现 是 , 个 体能 














够 以 更 直接 和 确定 的 方式 利用 其 最 






































有 两 个 明显 的 方式 可 以 用 来 集成 个 体 学 习 : 
初始 基因 型 ( 拉 马 克 进化 ); 第 二 种 方式 通过 考虑 局 则 














初 的 遗传 信息 (初始 位 置 
起 点 并 启动 从 此 处 开始 的 局 部 搜索 ,例如 搜索 局 部 最 优 而 得 到 
引入 某 些 模型 ， 这 些 模型 包含 总 体 的 进化 适应 ， 其 中 个 体 在 生命 周 
源 自 道 金 斯 提出 的 一 个 概念 , meme， 是 文明 进化 的 单位 ,可 以 表现 







































































度 函 数 。 换 言 之 ,适应 度 函 数 不 评估 初始 状态 ,而 考虑 个 体 的 “学 习 潜 能 ” 值 




















结果 来 衡量 。 这 种 进化 方式 具有 改变 适应 度 的 效果 ,同时 所 得 到 的 进化 本 质 上 











式 的 。 














现在 , 文化 范式 的 道路 已 经 开通 了 , H 

















独立 学 习 3 


























进行 社会 交往 的 个 体 , 他 们 
尤其 是 参考 文献 [17] 提出 了 一 种 混合 算法 来 进行 函数 的 全 局 作 
其 中 的 快速 组 合 组 件 (基于 禁忌 的 反馈 搜索 优化 ) 在 一 个 树 
希望 的 区 域 (盒子 ), 并且 在 一 个 有 希望 的 吸引 域 中 














然 可 以 考虑 从 组 











到 局 部 最 小 值 。 用 人 类 社会 来 类 比 ， 就 像 是 组 织 一 个 大 的 跨 


每 个 个 体 (类 比 于 营销 经 理 ) 负责 茶 个 地 理 区 域 ， 地 理 





























进行 调整 ,分 给 不 同 个 体 的 预算 与 




















其 先 前 的 宣传 活动 获得 的 结 























)。 这 是 通过 以 初始 字符 串 作 为 
的 。 术 语 模 因 算法 353 已 被 
期 内 进行 
局 部 细 





学 习 。 这 个 术语 
化 491, 实际 上 ， 
第 一 种 方式 是 将 局 部 搜索 到 的 更 好 解决 方案 替换 
搜索 的 最 终结 果 而 非 初始 


值 来 修改 适应 











局 部 搜索 的 























国 公司 的 营 和 























仿 然 是 达尔 文 


织 中 衍生 出 的 模型 , 组 织 中 有 能 
也 出 现在 给 不 同 的 搜索 流 进行 战略 性 的 资源 分 配 当 中 。 
化 〈 称 为 连续 反 
大 分 区 的 初始 搜索 空间 中 确定 有 
随机 局 部 搜索 (反馈 仿 射 振荡 器 算法 ) 找 
肖 力 量 ( 见 图 23-1): 
区 域 的 大 小 根据 不 同 地 

















馈 禁 忌 搜 索 )， 

















区 的 利益 分 配 





果 相 关 。 男 一 个 政治 类 比 是 选 
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区 ,根据 不 同 地 区 的 利益 (人口 密度 ) 进行 调整 ,并 按 区 域 潜力 来 争取 资源 。 
































p” 


s3 

















图 23-1 ”分 配 局 部 搜索 器 的 不 同方 式 : 模 因 算 法 ( 左 图 ) 和 政治 类 比 〈 右 图 )。 又 号 表示 起 始点 ， 
圆圈 表示 使 用 局 部 搜索 得 到 的 局 部 最 优 。 在 右 图 中 ， 每 个 个 体 负 责 构 型 空间 的 某 个 区 
域 ,比如 政治 上 通过 选区 来 划分 区 域 , 企业 中 为 不 同 的 区 域 分 配 不 同 的 营销 经 理 。 局 部 
搜索 流 如 图 所 示 


不 过 , 现在 是 时 候 停止 类 比 , 开始 考虑 具体 的 算法 了 。CoRSO 框架 的 发 展 遵循 下 面 的 设 
计 原 则 。 
。 通 用 优化 : 对 需要 进行 优化 的 函数 也 没有 可 微 性 或 连续 性 的 要 求 。 
。 全 局 优化 : 在 一 个 给 定 的 吸引 域 中 ， 局 部 搜索 部 件 确 定局 部 最 优 , 组 合 部 件 则 倾向 于 
在 不 同 吸 引 域 之 间 跳 转 , 并且 偏 向 那些 似乎 包含 有 价值 的 局 部 最 优 的 区 域 。 
。 多 标 度 搜索 : 在 树 结构 中 使 用 不 同 标 度 的 网 格 , 在 搜索 缓慢 变化 的 区 域 时 , 能 让 CPU 
时 间 有 些 空闲 , 并 可 加 强 关 键 区 域 的 搜索 。 
。 简单 性 、 反 馈 和 适应 :; CoRSO 的 算法 结构 简单 ， 该 方法 的 几 个 参数 在 搜索 期 间 , 通过 
从 记忆 中 得 到 的 信息 自动 进行 调整 。 单 一 化 -多 样 化 困境 的 解决 办 法 是 先 使 用 单一 化 ， 
直到 有 证 据 表 明 需 要 多 样 化 ( 当 过 多 区 域 被 搜索 轨迹 多 次 重复 经 过 )。 如 果 有 证 据 表 明 
当前 区 域 中 包含 多 个 吸引 域 , 那么 搜索 空间 的 树 形 离散 化 被 激活 。 
。 可 调 精 度 : 全 局 最 优 值 可 以 用 高 精度 来 定位 , 一 是 因为 网 格 尺 寸 的 局 部 调整 ， 二 是 因 
为 当 随机 RAS 收敛 时 减少 其 抽样 步骤 。 
在 搜索 过 程 中 ，CoRSO 的 特点 是 能 有 效 地 利用 记忆 ， 就 像 反 馈 搜索 优化 所 倡导 的 那样 。 
此 外 , 通过 在 搜索 区 生成 一 棵 树 , 简单 的 自 适 应 (反馈 ) 机 制 可 以 用 来 调整 空间 的 离散 化 ， 以 
及 RSO 作用 于 禁忌 的 禁忌 期 通过 给 每 个 变量 设 定 上 界 和 下 界 , 这 种 调整 限制 用 户 对 定义 初 
始 搜 索 区 的 干预 , 但 不 需要 调整 参数 。 
CoRSO 框架 将 反馈 搜索 优化 与 针对 特定 问题 的 局 部 搜索 组 件 融合 起 来 。 最 优化 问题 的 
一 个 实例 是 一 对 (4, f AP X 是 一 组 可 行 点 ，f 是 需要 被 最 小 化 的 成 本 函数 : f :XX 一 民 。 
下 面 考虑 连续 优化 问题 ， 其 中 + 为 RN WATER, ON 个 独立 变量 r 的 界定 义 ， 其 中 
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Bri < xi < Bui (Br 和 Br 分 别 是 下 界 和 上 界 )。 








某 些 情况 下 ， 
搜索 组 件 。 因 
组 











在 连续 优化 的 六 
个 “全 局 ”组 件 来 分 散 搜索 ,从 而 
域 定义 为 一 个 点 集 , 若 将 其 作为 局 


此 考虑 混合 策略 ， 
合 组 件 的 任务 是 发 现 有 希望 的 吸引 域 ， 使 对 应 











444 


可 








正如 初始 假设 所 















































很 高 ， 所 以 具有 当 








| X A 





局部 极 小 值 。 


F 多 流行 算法 中 ， 先 从 一 个 起 始点 开始 下 降 ,， 找到 “局 部 极 小 ” 然后 用 一 








到 全 局 最 优 。 本 书 将 一 个 局 部 最 小 值 AX 的 相对 应 的 吸引 
部 极 小 的 初始 构 型 ,由 
指出 的 , 手头 的 问题 存在 一 个 针对 该 特定 问题 的 有 效 























局 部 























的 局 部 极 小 被 激活 。 











个 区 域 很 有 可 能 包含 有 价值 的 









































分 割 。 











搜索 区 域 的 快速 求 值 通过 组 合 组 件 执行 ,并且 候选 
域 的 大 小 相关 。 当 有 证 据 表 明 至 少 有 两 个 不 同 的 局 部 极 小 都 位 于 同一 区 域 时 ， 这 个 区 域 会 被 





23.3 CoRSO 的 例子 : RSO 与 RAS 合作 


TE 
x 





现在 简 
反馈 林 已 








E SAZ K (continuous reactive tabu search) 。 





作为 
法 可 以 与 其 他 局 训 
下 面 来 看 看 这 个 目 
WFi=1,-- 























始 搜索 














局 部 极 小 化 方法 , 21.5 节 描 述 中 的 反馈 仿 射 振荡 器 被 上 
搜索 器 合作 。 在 混合 方案 中 ，RSO Hah 
标的 实现 ， 以 及 这 两 个 组 件 的 接口 。 
WN, Bri < xi < Buis 初始 搜索 
KIRII El I HE AS 2 E — ER ES R CEIT PAB oh 

















Poh 


其 中 局 部 极 小 化 的 目的 是 以 足够 高 的 精度 寻找 局 部 最 小 ， 而 


因为 局 部 极 小 化 的 成 本 





局 部 最 优 时 ， 它 才 会 被 激活 。 与 此 相反 ， 
区 域 的 大 小 要 进行 调整 ,使 其 与 单一 吸引 


地 给 出 CoRSO 框架 的 一 个 具体 例子 , 在 参考 文献 [17] 的 原始 版 本 中 称 为 连续 


日 于 这 种 情况 , 虽然 CoRSO 方 























HAG HG 








让 局 部 极 小 化 激活 的 


区 域 。 





区 域 由 每 个 独立 变量 x; 的 界 所 确定 ， 该 初 























有 2N 片 大 小 相等 的 叶子 , 即将 每 个 变量 的 初始 值 域 平均 分 成 两 份 。 


个 不 同 的 




















要 更 力 


局 部 最 小 值 , 每 个 区 域 就 再 细 
局 部 特性 触发 , HEHE CoRSO X 
上 专注 的 搜索 。 只 有 树 的 叶子 





























是 








组 合 部 件 受到 

















分 为 2N 个 相等 大 小 的 子 区 域 。 由 于 细 分 过 程 | 





的 盒子 )。 这 棵 新 生 的 树 
只 要 在 该 区 域 中 发 现 两 
f ig 



































代 后 , 在 不 同 的 区 域 , 树 会 有 不 同 的 深度 , 尺寸 较 小 的 区 域 需 
的 搜索 点 。 树 叶 划 分 初始 





区 域 : 任意 两 片 











不 同 叶 子 的 交集 是 空 集 , 所 有 的 叶子 的 并 集 恰好 是 初始 搜索 空间 。 图 23-2 显示 了 一 个 二 维 任 























务 的 





型 结构 ， 其 中 每 个 叶子 区 














N 维 的 问题 中 , 每 个 存在 的 
“INI1 ,JNn]。 值 n 是 这 个 区 域 








Jin,’ 





x Jak 

















zy 





的 叶子 “并 因此 初始 字符 串 有 N 位 )， 当 
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成 由 实 线 边框 和 粗 体 的 二 进 制 
唯一 的 nx N 位 的 二 进 各 


Po Are 


子 付 























分 











个 给 定 的 区 域 时 























串 标识 。 
JF Bs 标识 : Bs = [g11,…， 
树 中 的 深度 : n= 0 表示 根 区 域 , n= 1 表示 初始 树 
> n 就 增加 1。 因 








此 , 区 域 沿 


着 第 i 个 坐标 的 边 长 , 等 于 (Bui 一 BLi)/2”"。 区域 原点 位 置 的 第 i 个 坐标 Bo; 是 


对 给 定 





区 域 


9 邻 域 求 值 


n 





Boi = Bri + (Bui — Bri) a 
j=l 
区 域 , 因为 邻 域 求 值 的 过 程 3 








只 针对 现 有 的 叶子 
































F 不 创造 新 的 分 区 。 
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现在 , 对 于 一 个 给 定 的 区 域 B, 它 所 对 应 的 标识 二 进 制 串 为 Bs, 在 对 Bs 进行 基本 的 操作 后 ， 
可 以 在 搜索 空间 里 得 到 N xm 个 大 小 相同 的 区 域 , 图 23-2 展示 了 Bs = (1010,1011) 的 情况 。 
因为 树 在 不 同 的 区 域 可 以 有 不 同 的 深度 ,， 所 以 有 些 串 没有 对 应 的 叶子 区 域 , 而 男 一 些 串 可 以 
覆盖 多 个 叶子 区 域 。 第 一 种 情况 下 , 对 包 国 其 中 的 最 小 叶子 区 域 求 值 ; 第 二 种 情况 下 , 随机 选 
择 一 个 包围 其 中 的 叶子 区 域 进行 求 值 。 随 机 选择 在 原 有 区 域 中 以 均匀 概率 产生 一 个 点 ， 并 选 
择 包含 该 点 的 叶子 。 这 保证 了 叶子 被 选择 的 概率 正比 于 它 的 体积 。 
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图 23-2 CoRSO: 搜索 区 域 的 树 形 结构 。 实 线 边框 和 粗 体 的 二 进 制 串 表 示 叶 子 区 域 ， 阴 影 表 示 
区 域 (1010,1011) 的 邻居 











1. 不 同 区 域 的 求 值 机 会 


组 合 优化 的 RSO 算法 生成 由 点 XO 组 成 的 搜索 轨迹 ，CoRSO 则 生成 由 叶子 区 域 BY 
组 成 的 轨迹 。 此 处 要 强调 两 个 重要 的 变化 : 其 一 ,函数 f(X) 必须 蔡 换 为 一 个 度量 ， 该 度量 






























































228 $232 合作 反馈 搜索 优化 
用 来 测量 当前 区 域 包 含 好 的 局 部 最 优 的 可 能 LZ, 树 是 动态 的 ， 搜 索 过 程 中 区 域 数量 会 
增长 。 

组 合 组 件 必 须 快速 找 出 有 希望 的 区 域 。 当 缺少 最 小 化 目标 函数 了 的 详细 模型 时 , 可 在 区 


























域内 以 均匀 概率 分 布 产 生 一 个 点 X, 并 通过 在 该 点 求 函数 f 





















































(X) 的 全 









































计 。 此 处 使 用 相同 的 函数 符号 , 不 同 的 是 , 它 的 参数 是 显 式 的 : f(B) = 
十 计 很 简单 ， 其 潜在 的 缺点 是 , 搜索 可 能 会 强烈 地 偏向 茶 个 “幸运 ”区 域 
定 区 域 最 小 值 ), 或 者 远离 情况 相反 的 区 域 。 为 了 克服 这 个 缺点 ， 

经 过 时 ,生成 新 的 点 X 并 求 值 , 返回 一 些 集体 的 信息 。 那 么 ， 


























Xi 的 平均 值 : f(B) 








= (VN) f(X 


















































































































































返回 的 1(B) 的 值 
D 其 中 Ng 是 点 的 数量 。 


(例如 ， 








来 获得 B 区 域 的 简单 估 
f(rand X € B). 
F(X) 接近 给 
当 一 个 区 域 在 搜索 期 


这 个 


间 再 次 























则 是 所 求 的 









































看 一 下 图 23-2 的 例子 。 当 前 区 域 (1010,1011) 有 阴影 所 示 的 邻居 。 左 上 角 的 (0010,1011) 
不 是 一 个 现 有 的 叶子 区 域 , 因此 , 它 被 转换 成 现 有 叶子 区 域 (0,1)。 反 之 亦 然 , (1010,0011) 包 
含 4 个 叶子 , 其 中 (10100,00111) 是 一 个 随机 选择 的 输出 。 图 23-3 给 出 了 这 个 例子 最 终 获 得 
的 全 部 邻居 。 
开始 区 域 邻居 获得 的 区 域 
| i i] 
(“1010” ,“1011”) — > (“0010",“1011”) ---------------------------- > (“0”,“1”) 
—> (“1110",“1011”) ---------------------------- > (“11,10”) 
[OOO Ol > (“100”,“101”) 
[oo 
m (“1010”,“0011”) 二 二 > ans ae z > (“10100”,“00111”) 
—> (“1010”,“1111”) ee (“10,11”) 
和 
-= N oO a a a > (“1010”,“1010”) 
图 23-3 CoRSO: 区 域 (1010,1011) 所 有 邻居 的 值 
2. 在 特定 区 域 激 活 局 部 搜索 的 决定 
根据 RSO 动力 学 , 具有 当前 点 对 应 的 基本 移动 不 被 禁止 时 , 才 对 当前 区 域 的 邻近 区 域 进 
行 求 值 。 只 有 当前 区 域 的 求 值 (BO) 小 于 在 附近 执行 的 所 有 求 值 时 , 才 决 定 是 否 触发 局 部 搜 
索 组 件 (反馈 仿 射 振荡 器 )。 换言之 , 激活 高 精度 一 一 因此 成 本 很 高 一 一 局 部 搜索 的 一 个 必 
要 条 件 是 ， re 全 定 邻 域 ， 当 前 区 域 有 很 高 的 似 然 性 可 以 产生 最 好 的 局 部 最 小 
值 ， 似 然 性 用 f(B) 测定 。 由 于 组 合 组 件 的 贪 禁 性 , 搜索 轨迹 上 的 当前 区 域 B 向 着 非 禁 鼠 
局 部 最 优 的 区 域 移动 ， 因 此 它 最 终 将 成 为 局 部 最 优 ， 并 满足 触发 RAS 的 条 件 。 注意, 即使 一 
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个 给 定 的 区 域 B 在 这 样 的 竞争 中 失败 ( 即 它 不 是 RSO 的 局 部 最 优 )， 如 果 搜索 期 间 再 次 遇 到 
它 , 它 胜出 的 可 能 性 仍然 存在 , 因为 不 同 的 随机 点 X 的 求 值 可 能 产生 更 好 的 f(B) 值 。 在 最 
佳 条 件 下 ， 如 果 f 表面 是 光滑 的 , 且 f(B) 是 一 个 可 靠 的 指标 , 并 指示 着 可 在 区 域 B 获得 的 
局 部 最 小 值 , 那么 求 值 方法 CoRSO 会 很 快 。 不 过 该 方法 在 困难 的 情况 下 也 是 具有 健壮 性 的 ， 
如 果 f(B) 标准 差 很 大 或 不 是 可 靠 的 指标 ， 不 能 清晰 地 指示 通过 反馈 仿 射 振荡 器 获得 的 好 的 
局 部 最 小 值 。 
当前 区 域 B 的 局 部 最 优 是 激活 振荡 器 算法 的 一 个 必要 条 件 ,但 并 不 充分 , 除非 B 首次 
达到 局 部 最 优 。 在 这 种 情况 下 ,RAS 总 是 触发 。 否则, 如 果 + > 1 是 搜索 期 间 区 域 B 被 选 为 
局 部 最 优 的 次 数 ， 那 么 运行 男 一 个 RAS 必须 有 充分 的 理由 ， 即 找到 B 中 一 个 新 的 局 部 最 小 
值 的 概率 足够 大 。 贝 叶 斯 规则 用 于 估计 所 有 局 部 最 优 已 访问 的 概率 , 它 可 以 用 于 单个 小 区 域 ， 
通过 从 均匀 分 布 的 起 始点 开始 重复 激活 RAS 来 实现 多 点 启动 技术 。 按 我 们 的 分 割 准则 , 一 个 
给 定 区 域 至 多 有 一 个 局 部 最 优 (只 要 在 一 个 区 域 中 发 现 两 个 不 同 的 局 部 最 优 就 进行 拆 分 , 参 
JL 21.4.5 节 )。 此 外 , 区 域 的 一 些 部 分 可 以 是 这 样 的 : RAS 将 退出 边界 , 如果 初始 点 属于 这 些 
部 分 。 因 此 ， 可 以 将 区 域 划分 成 W 个 部 分 , 区 域 中 所 包含 的 局 部 最 小 值 的 吸引 域 和 将 RAS 
引 向 外 部 ， 并 使 得 吸引 域 的 概率 之 和 为 1(》 Py = 1)。 
根据 参考 文献 [26], 车 已 执行 过 7 > W +1 次 , 且 确 定 W 个 不 同 的 胞 格 (cel)， 则 “ 观 
察 区 域 ” 的 总 相对 量 ( 即 相对 体积 O 的 后 验 期 望 值 ) 可 由 下 式 估计 : 
(r-W-l1)(r+W) 
r(r—1) í 


如 果 7 < W+1, 那 就 总 是 触发 反馈 仿 射 振荡 器 , 这 是 因为 上 述 估计 在 这 种 情况 下 不 是 有 
效 的 ; 否则 RAS 以 概率 1— B(Q|r, W) 再 次 执行 。 这 种 方式 中 , 如 果 上 述 估计 预测 找到 一 个 新 
的 局 部 最 优 的 概率 很 小 , 往往 需要 增加 RAS 的 运行 , 但 是 为 了 健壮 性 , 不 会 完全 禁止 重新 开 
始 一 个 运行 : 式 (23.1) 的 贝 叶 斯 估计 也 许 会 是 不 可 靠 的 , 或 者 看 不 见 的 部 分 (1 — E(Q|r, W)) 
包含 一 个 很 好 的 最 小 值 和 一 个 小 的 吸引 域 。 

RAS 的 初始 条 件 ( 如 图 21-14 所 示 ) 是 初始 搜索 点 在 B 内 部 均匀 分 布 ,初始 搜索 框架 是 
bi = &; x (1/4) x (Bui 一 Bri) EP & 是 RN 的 标准 基 向 量 。 反 馈 仿 射 振荡 器 生成 一 条 轨迹 ， 
这 条 轨迹 必须 包含 在 区 域 B 中 ,通过 将 边界 区 域 宽度 设 为 (1/2) x (Bui - Bri) 来 扩大 该 区 
域 , 并 且 这 条 轨迹 必须 收敛 到 B 内 的 某 个 点 。 如 果 RAS 退出 扩大 区 或 者 根 区 域 ， 它 就 被 终 
1E, 通过 RAS 执行 的 函数 求 值 结果 将 被 丢弃 。 如 果 它 收敛 于 原 区 域 之 外 、 扩 大 区 之 内 , 该 点 
的 位 置 将 被 保存 。 这 两 种 情况 下 , CoRSO 组 合 部 件 继续 照常 运行 : 下 一 个 区 域 BOD 是 BO 
可 容 邻 域 里 最 好 的 那个 。 任 何 情况 下 , “迄今 为 止 最 好 的 ” 值 总 是 通过 对 所 有 可 容 的 ( 根 区 域 
里 面 的 ) 点 求 值 来 更 新 。 

一 个 可 能 的 有 别 于 通常 CoRSO 进化 的 例外 情况 , 仅 当 该 RAS 在 BO 内 收敛 至 一 个 局 
部 极 小 值 Xi 时 发 生 。 如 果 X 是 找到 的 第 一 个 局 部 极 小 值 , 它 会 保存 在 这 个 区 域 的 相关 记忆 






























































































































































































































































E(Q\r,W) = 





r>W+1 (23.1) 
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结构 中 。 如果 局 部 极 小 值 的 Yi 已 经 存在 且 和 Xi 对 应 于 同一 点 ,那么 它 就 被 丢弃 ; 其 他 情况 
下 ,车 树 中 的 “兄弟 ” (siblings) 分 开 这 两 个 点 , 则 当前 区 域 被 分 割 。 分割 完成 后 ， 当 前 的 区 
域 BO 就 不 再 对 应 于 现 有 的 叶子 。 为 了 恢复 合法 性 , 在 BO 中 以 均匀 分 布 随机 选择 一 个 点 ， 
于 是 合法 的 BO 变 为 包含 该 随机 点 的 叶子 区 域 。 因 此 , 初始 区 域 划分 中 的 每 个 叶子 区 域 被 先 
中 的 概率 都 与 其 体积 成 正比 。 分 割 过 程 将 在 下 文 说 明 。 

3. 根据 局 部 适应 度 表面 调整 区 域 

给 定 区 域 B 内 只 要 确定 了 两 个 不 同 的 局 部 极 小 值 X 和 蕊 ， 当 前 区 域 就 被 划分 为 2X 个 
大 小 相等 的 盒子 。 如 果 X M Y, 分 别 属于 新 分 区 的 两 个 不 同 的 叶子 区 域 , 分 割 就 终止 否则 ， 
对 包含 X ALY, 的 区 域 进行 继续 分 割 , 直到 二 者 分 离 。 

在 所 有 情况 下 ， 旧 区 域 不 复 存在 ， 而 被 分 割 所 得 的 集合 取代 。 局 部 极 小 值 X 和 与 
新 划分 的 盒子 关联 起 来 。 进 行 数值 计算 时 ， 判 断 两 个 局 部 极 小 值 X 和 Y1 为 不 同 的 标准 是 
|Xi — Yill < es 这 里 e 是 自 定义 的 精度 要 求 。 

CoRSO 终止 时 ,所 有 已 经 确定 的 局 部 极 小 值 都 被 保存 并 报告 。 



































































































































































































































图 23-4 。 一 棵 包含 适应 度 平面 和 求 值 点 的 CORSO Bi: 求 值 点 (加 号 )、 局 部 极 值 点 (实心 点 )、LS 
堆积 (折线 )。 本 图 改编 自 参考 文献 [17] 

















图 23-4 展示 了 一 个 CoRSO 运行 过 程 中 产生 的 树 状 结构 的 例子 , 这 是 一 个 二 维 函 数 的 情 
况 (参考 文献 [17] 中 描述 的 Strongin 函数 )。 局 部 最 优 清晰 可 见 , 如 同 “ 山 峰 ”。 注意 , 求 值 的 
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用 来 计算 f(B) 的 点 ) 准 均匀 地 (quasi-uniformly) 分 布 于 搜索 空间 : 这 是 与 体积 成 正比 进 
行 选择 的 结果 , 它 保证 以 公平 的 方式 对 待 搜索 空间 的 所 有 区 域 。RAS 轨迹 要 么 收敛 到 局 部 极 
小 值 (实心 点 ), 要 么 当 其 退出 扩大 区 时 终止 , 如 23.3 节 所 述 。 按 我 们 的 分 割 标准 ， 每 个 区 域 
包含 至 多 一 个 局 部 极 小 值 。 尽 管 图 中 没有 显示 ， 大 多 数 的 点 在 局 部 搜索 阶段 需要 求 值 (本 例 
子 中 约 有 85%), 这 才 是 CoRSO 算法 中 最 昂贵 的 部 分 。 

需要 强调 的 是 , CoRSO 是 一 种 集成 局 部 搜索 组 件 、 对 区 域 进行 战略 分 配 和 大 小 调整 ， 以 
及 在 多 维 空间 产生 初始 点 的 方法 论 。 读 者 可 以 随意 尝试 不 同 的 局 部 搜索 组 件 ， 改 变 原 空间 的 
分 割 方法 或 激发 局 部 搜索 的 细节 。 
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现实 世界 中 很 多 有 趣 的 优化 问题 都 很 复杂 ， 需 要 大 量 的 时 间 计 算 来 找 出 解决 方案 。 
使 用 多 台 计 算 机 并 行 工 作 (也 许 在 云端 ,必要 时 可 以 租用 ) 可 以 解决 这 一 困难 ,节省 
产生 可 接受 的 解决 方案 的 时 间 。 

茶 些 情况 下 还 可 以 考虑 独立 搜索 流 , 周期 性 地 向 中 央 协 调 器 报告 目前 为 止 发 现 的 最 佳 
解决 方案 。 永 远 不 要 小 看 这 一 简单 解决 方案 的 力量 ! 其 他 情况 下 , 各 计算 机 之 间 更 智能 的 
协调 机 制 会 带 来 更 高 的 效率 。 

CoRSO 框架 将 解 空间 进行 有 组 织 的 细 分 ， 以 在 线 的 方式 对 其 进行 调整 ， 以 此 来 协调 
一 组 交互 的 求解 器 。 

从 人 类 社会 组 织 中 提炼 出 的 范式 , 其 特点 是 能 够 “ 边 干 边 学 ”。 相 比 于 从 简单 的 生物 或 
遗传 原则 派生 出 的 范式 , 这 些 范式 可 能 会 得 到 更 好 的 结果 。 

明智 的 人 能 比 病毒 更 有 效 地 解决 复杂 问题 , 通常 也 不 会 像 病毒 那样 造成 致命 的 后 果 。 
苍蝇 的 一 生 很 短暂 ， 也 学 不 了 很 多 东西 ， 如 果 一 不 小 心 磁 到 滚烫 的 白 炊 灯 和 灯泡 ,很 容易 就 
会 送 命 。 人 类 的 孩子 则 只 要 触摸 一 次 发 泛 的 灯泡 ,知道 什么 是 “ 沈 ” 以 后 , 将 来 就 不 敢 再 
这 样 做 了 。 
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生活 是 充满 妥协 的 , 正如 民间 智慧 所 言 ， 人 们 不 能 “用 一 个 屁股 骑 两 匹 马 ”。 大 多 数 现实 
世界 的 问题 , 无 法 找到 一 个 简单 的 或 者 在 数学 上 十 分 清晰 的 函数 f(z) 来 进行 最 小 化 。 
有 了 两 个 重要 的 难点 。 第 一 点 ， 大 多 数 的 问题 需要 达成 一 个 以 上 的 目标 。 这 是 多 目标 优化 
问题 (MOOP)， 因 此 要 在 许多 相互 冲突 的 目标 中 进行 权衡 。 大 多 数 现 实 问题 都 是 这 样 的 。 例 
如 ， 你 买 车 的 时 候 , 心里 有 不 同 的 目标 , 速度 、 成本、 大 小 等 , 并且 你 有 自己 权衡 不 同 目标 的 
方式 。 如 果 你 买 了 一 辆 法 拉 利 ， 你 的 权衡 方式 很 可 能 不 同 于 那些 来 了 城市 小 型 车 的 人 。 如 果 
你 正在 寻找 一 个 伴侣 ,不 同 的 候选 人 可 能 有 着 美丽 与 智 意 的 不 同 组 合 〈《 先 接受 它 ， 这 只 是 一 
个 粗略 的 简化 )。 不 幸 的 是 ,同时 最 大 化 这 两 个 参数 的 情况 是 罕见 的 , 因此 不 得 不 妥协 。 

第 二 点 ， 即 使 存在 一 个 要 被 最 大 化 的 整体 效用 函数 (cutility function)， 它 抽象 地 组 合 两 
个 或 更 多 的 目标 ， 然 而 得 到 一 个 封闭 形式 的 函数 却 可 能 是 非常 困难 的 ， 甚 至 是 不 可 能 的 。 试 
着 问 问 你 最 好 的 朋友 〈 最 好 不 要 直接 问 你 的 伴侣 ):“ 跟 我 说 说 , 你 认为 美丽 与 智 意 的 最 优 结合 
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的 效用 函数 是 什么 ?” 或 者 , 把 模型 限制 为 线性 组 合 :“ 能 不 能 告诉 我 , 美丽 和 智 间 的 权重 是 什 
么 呢 ?” 问 题 的 求解 及 优化 技术 往往 提供 了 大 量 的 潜在 解决 方案 , 例如 设计 过 程 创新 、 虚 拟 原 
型 设计 、 业 务 流程 设计 。 决 策 者 要 从 大 量 的 潜在 解决 方案 中 选择 一 个 优选 的 解决 方案 ,这 一 
关键 任务 需要 考虑 显 式 定义 的 目标 (最 大 化 一 个 或 多 个 数学 函数 ), 人 硬 约束 和 软 约 束 ， 以 及 那 
些 隐 式 的 但 往往 对 于 智能 决策 而 言 至 关 重要 的 偏好 。 

问题 求解 通常 是 带 有 学 习 的 迭代 过 程 , 如 图 24-1 所 示 。 其 中 有 一 条 两 个 实体 之 间 的 学 习 
路 径 : 决策 者 和 配套 的 软件 系统 。 决 策 者 分 析 一 些 代 表 性 的 解决 方案 ,了 解 具体 的 可 能 性 , 并 
































空间 ， 以 此 来 修改 内 部 搜索 过 程 。 该 迭代 过 程 持续 进行 , 直到 发 现 一 个 令 人 满意 的 解决 方案 ， 
或 者 失去 了 耐心 。 


























24-1 问题 求解 和 优化 通常 是 带 有 学 习 的 迭代 过 程 


MORSO (多 目标 反馈 搜索 优化 ) 用 来 表示 多 目标 优化 任务 求解 的 方法 , 其 特点 是 迭代 和 
FIRB. 学 习 发 生 在 用 户 的 脑 中 ,以 及 求解 技术 (以 及 相应 的 软件 工具 ) 中 。 与 此 密切 相关 
的 一 个 术语 是 交互 式 多 目标 优化 , 但 本 书 意图 以 更 直接 的 方式 强调 系统 化 、 自 动 化 和 在 线 学 
习 技术 。 



































24.1 多 目标 优化 和 帕 累 托 最 优 


在 多 目标 优化 问题 (MOOP) 的 典型 情况 中 , 用 户 能 够 指定 一 组 期 望 的 目标 ， 但 并 不 能 
给 出 权衡 的 方式 、 不 同 目标 的 相对 重要 性 , 以 及 如 何 将 其 适当 地 组 合成 一 个 整体 的 效用 函数 。 
一 个 MOOP 可 以 表述 为 : 








最 小 化 f(x) = {file),--- , fm(x)} 
使 服从 LEQ 
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其 中 ze R" 为 包含 n 个 决策 变量 的 向 量 ; O CR” 是 可 行 域 , 并 且 通 常 由 一 组 决策 变量 上 的 
约束 指定 。 在 之 前 寻找 合适 伴侣 的 例子 中 , O 可 以 设 为 某 一 性 别 〈 男 或 女 ) 的 所 有 人 的 集合 ， 
且 至 少 有 读 写 能 力 。 你 当然 不 会 从 不 满足 这 些 约 束 的 人 中 选择 伴侣 。 

向 量 f:Q 一 Rm 是 m 个 目标 函数 , 需要 同时 加 以 最 小 化 ”。 目标 向 量 是 决策 向 量 的 像 
(Cimage)， 可 以 写 为 z He) = {P(aj，，， 户 ( 四 ]}。 如 果 目 标 函 数 是 相互 矛盾 的 ， 那么 上 述 
问题 就 是 不 适 定 的 ， 这 种 情况 在 现实 世界 里 经 常 发 生 。 这 些 情况 下 ， 如 果 一 个 目标 向 量 的 任 
何 一 个 分 量 的 改进 都 不 得 不 损害 其 他 分 量 ， 那 么 这 个 目标 向 量 就 被 认为 是 最 优 的 。 如 果 对 于 
所 有 都 有 zr <z 并且 存 在 至 少 一 个 h 使 得 zn < 加 ,那么 称 目标 向 量 z 对 z 点 优 , K 
示 为 z < z。 如 果 对 于 某 个 点 2, 没有 其 他 点 z e 9 使 得 f(z) 对 Fl 占 优 , BARA & A 
帕 累 托 最 优 (Pareto-optimal). | 24-2 展示 了 这 个 概念 。 帕 累 托 边界 (或 帕 累 托 前 沿 ) 包含 了 
所 有 帕 累 托 最 优 的 点 。 在 这 个 例子 中 , 一 个 伴侣 是 帕 累 托 最 优 的 ， 如 果 找 不 到 同样 好 看 但 更 
聪明 , 或 者 同样 聪明 但 更 好 看 的 人 , 等 等 。 就 像 你 意识 到 的 那样 , 只 考虑 帕 累 托 最 优 人 先是 有 
道理 的 : 没有 哪个 理性 的 人 会 喜欢 一 个 不 占 优 的 伴侣 ! 通过 将 注意 力 限制 在 帕 累 托 边 界 〈 帕 
累 托 有 效 的 那 一 组 ), 设计 者 可 以 在 此 组 内 做 出 权衡 , 而 不 是 考虑 每 一 个 参数 的 全 部 可 能 性 。 
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图 24-2 MRE. 所 有 像 左 下 角 那 个 人 一 样 不 占 优 的 点 都 不 会 被 列 为 最 终 候选 。 在 帕 累 托 边 
界 〈 虚 线 ) 上 的 点 需要 进行 权衡 














@ 如 果 目 标 函 数 是 美貌 和 智慧 , 那么 显然 必须 加 以 最 大 化 , 即 最 小 化 其 反面 。 
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满意 优化 专家 提出 的 解决 方案 ， 
在 不 同 的 缺点 ， 该 方法 给 最 终 用 户 
选择 最 喜欢 的 解决 方案 。 


























正如 前 文 所 提 到 的 ,让 用 户 在 看 到 























出 现 误 解 。 当 MOOP 的 冲突 日 标 数目 增加 时 , 这 个 问题 可 能 变 得 更 严重 。 最 终 用 户 可 























实际 优化 结果 之 前 先 验 地 量化 效用 函数 〈 例 如 通过 选 
择 不 同 目标 的 线性 组 合 权 重 ) 是 具有 挑战 性 的 。 如 果 最 终 用 户 与 优化 专家 合作 ， 他 们 之 间 可 
能 


Sb 
He) 


为 一 些 目标 始终 隐藏 在 最 终 用 户 的 脑海 中 。 后 验方 法 也 存 
提供 一 组 代表 整个 帕 累 托 前 沿 的 解决 方案 ,让 他 可 以 从 中 


























虽然 对 用 户 来 说 ,提供 明确 的 权重 和 数学 公式 是 很 困难 的 , 但 是 他 们 一 定 可 以 评估 返回 


的 解决 方案 。 大 多 数 情况 下 ,改进 这 种 状况 的 策略 是 最 终 用 户 和 优化 专家 互动 合作 来 改变 问 














题 本 身 的 定义 。 优 化 工具 将 在 新 版 本 的 问题 





图 24-1 所 示 。 
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现在 我 们 正 进 入 本 书 最 前 治 、 最 令 人 兴奋 的 话题 : 分 析 、 可 














方案 都 是 有 特定 含义 的 数字 向 量 。 




















方案 的 信息 。 该 程序 是 各 种 不 同 的 应 用 都 要 提供 的 ， 可 用 于 可 视 化 特定 点 的 详细 





解决 方案 的 图 形 显 示 。 


在 互动 问题 求解 的 场景 中 , 用 户 可 以 调用 一 个 针对 特定 问题 的 程序 来 获得 有 关 特 定 解决 


rah, Bin 























针对 特定 问题 的 同一 程序 可 以 
所 示 。 
































EF 重新 执行 。 这 个 过 程 可 以 被 述 代 任意 次 数 ， 如 


视 化 和 优化 的 整合 。 抽象 解 决 


用 于 接受 特定 解决 方案 的 反馈 , 比如 个 人 的 评价 , 如 图 24-3 


作为 一 个 经 验 法 则 , 大 部 分 为 解决 现实 世界 问题 所 做 的 努力 , 都 花费 在 问题 的 定义 上 ,以 


一 个 可 计算 的 方式 指定 需要 优化 的 















































函数 。 在 此 建 模 工作 完成 后 , 优化 在 某 些 情况 下 成 为 商品 。 


给 研究 人 员 和 开发 人 员 的 提示 是 ,更 应 该 致力 于 设计 配套 的 技术 和 工具 来 帮助 最 终 用 户 , 他 
们 往往 没有 数学 和 优化 的 专业 知识 来 定义 和 完善 需要 优化 的 函数 ， 使 其 对 应 于 真实 目标 。 想 

















想 寻 找 一 个 伴侣 时 ,定义 自己 喜欢 的 美貌 与 智慧 的 权重 。 如 果 有 人 要 你 在 开始 搜索 有 


量 的 方式 来 指定 权衡 ,你 可 能 会 感到 很 尴 软 。 只 有 在 看 到 一 些 例子 之 后 ,你 才能 弄 清 权重 和 




















目标 。 





反馈 搜索 优化 (RSO) 致力 于 在 线 学 习 技术 ， 以 支持 通 
方案 , 这 一 方法 与 搜索 历史 相关 。 学 习 的 信号 包括 在 该 实例 上 运行 算法 时 收集 到 的 结构 特征 
数据 , 例如 吸引 域 的 大 小 、 轨迹 中 的 陷阱 、 以 前 重复 访问 过 的 解 。 该 算法 通过 与 一 个 先前 未 知 









































的 环境 交互 进行 学 习 , 这 一 环境 由 现 有 的 (固定 的 ) 问题 定义 给 出 。 














我 们 认为 还 有 一 个 有 趣 的 在 线 学 习 循 环 ， 在 这 个 循环 中 ， 学 
在 修改 和 细 化 问题 定义 本 身 。 这 种 情况 可 能 发 生 在 许多 环境 中 , 取决 于 给 定 的 关于 问题 的 先 
验 知识 的 多 少 、 允 许 的 修改 ,以 及 问题 的 种 类 。 








参考 文献 [10] 中 描述 了 使 用 RSO 的 交互 式 多 目标 优化 的 一 个 例子 。 本 



























































习 的 信和 号 来 自 最 终 
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I 就 以 定 


过 自 适 应 局 部 搜索 方法 寻求 解决 





i= 
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考虑 的 方法 和 
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参考 文献 [121, 41, 103] 有 共同 之 处 , 通过 对 解决 方案 进行 两 两 比较 实现 了 与 最 终 用 户 的 交互 ， 
但 使 用 非 线性 偏好 函数 来 解决 更 广泛 的 一 类 问题 。 这 种 情况 是 有 趣 的 ， 因 为 许多 《〈 也 许 是 大 
多 数 ) 决策 问题 都 是 非 线 性 的 , 这 反映 了 我 们 的 偏好 , 即 合理 的 、 折 中 的 解决 方案 。 对 于 任意 
( 非 线性 ) 模型 这 一 领域 的 前 沿 技术 感 兴趣 的 读者 可 以 读 读 最 近 的 技术 文章 OS), 










































































评估 / 
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优化 点 

















图 24-3 ” 脑 - 计 算 机 优化 (BCO): 对 于 交互 的 多 目标 优化 , 从 最 终 用 户 中 学 习 问 题 的 定义 (改编 
自 参 考 文献 [10])。 


























这 里 我 们 关注 简单 和 经 典 的 线性 情况 po ,目标 是 学 习 最 终 用 户 偏好 的 占 优 的 解 。 假设 用 
户 为 MOOP 问题 提供 了 不 同 的 目标 , 然而 看 到 优化 的 实际 结果 之 前 , 他 不 能 量化 不 同 目标 的 
权重 。 该 系统 的 目的 是 学 习 权 向 量 w = (wi,w2,… ,wm)， 它 最 优化 如 下 线性 组 合 g: 












































g(x, w) = wifi(z) 十 wə fo(a) spear wmfm(Z) 








一 种 更 紧 致 的 形式 是 : 


g(£1, T2, Ss , Tn, W) = f(x)"w 





其 中 f= (有 所, 天,… ,fm)。 不 失 一 般 性 的 条 件 下 , 假设 9 必须 被 最 小 化 。 
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每 次 迭代 提出 两 个 解决 方案 ,决策 者 从 中 选择 最 喜欢 的 那个 ,如 果 有 的 话 。 这 是 要 问 的 
最 简单 的 问题 , 一 个 定性 的 整体 偏好 。 如 果 决 策 者 不 能 回答 , 他 或 许 应 该 换 一 份 工作 ! 由 最 终 
用 户 说 明 的 偏好 转换 成 权重 必须 满足 的 约束 。 这 保证 所 得 到 的 效用 函数 与 用 户 的 判断 是 一 臻 
的 。 如 果 a= (Qi1,a2,… ,an) Al b = (bi,b2,… ,bn) 是 系统 提供 的 两 个 解决 方案 , 最 终 用 户 的 
偏好 是 a < b, 即 相 比 于 解决 方案 b, 用 户 更 偏好 a ， 可 通过 以 下 约束 来 表示 : 










































































g(a, w) < g(b, w) 


因此 , 最 终 用 户 回答 的 每 个 问题 都 会 产生 新 的 权重 上 的 线性 约束 。 学习 用 户 偏好 的 问题 
就 变 成 了 寻找 一 个 解 w, 满足 由 用 户 反 人 馈 所 产生 的 权重 约束 集 。 

所 有 的 权重 都 以 位 于 区 间 (0,1) 的 随机 值 初始 化 , 然后 归 一 化 , 使 其 和 为 1。 在 每 次 迭代 
H, 两 个 占 优 解 a 和。b 由 最 终 用 户 进行 比较 。 这 两 个 解 都 是 通过 最 小 化 输入 问题 的 目标 函数 
的 线性 组 合 而 得 到 的 : 
































































































































min g(x, w) 
T 


和 寺 别 是 第 一 个 解 a, 是 使 用 当前 的 权 向 量 w 得 到 的 ， 该 向 量 通过 最 中 间 权 重 (middlemost 
weight) 技术 [86 ,求解 下 面 的 线性 规划 问题 而 得 到 : 























max y 
g(a, w) < g(b, w) = Va < b 

使 服从 wy Vi=1,...,m 
720 


上 式 的 意义 是 搜索 到 的 权重 是 一 致 的 , 但 也 要 远离 一 致 区 域 的 边界 。 正 参数 y 越 大 , 不 等 式 
就 越 安全 。 即 使 添加 受 限 噪声 〈 例 如 物理 量 的 测量 误差 引起 的 )， 且 9 值 稍 有 变化 , 不等式 方 
回 改 变 之 前 仍 有 一 个 安全 间隔 (safety margin). 

第 二 个 解 b 可 以 使 用 权 向 量 wet 得 到 ， 该 向 量 通过 扰动 we 生成 ,并 确保 产生 的 两 
个 解 足够 不 同 。 参 考 文献 [10] 中 考虑 了 不 可 行 线 性 约束 问题 (可 能 由 于 决策 者 一 时 糊涂 , 或 
者 线性 逼近 太 粗 糙 )。 更 复杂 的 非 线性 情况 的 解决 办 法 , 是 基于 参考 文献 [13] 中 支持 向 量 机 方 
法 的 机 器 学 习 技 术 。 

参考 文献 [33] 提出 了 由 累 托 前 沿 的 主动 学 习 CALP) 的 新 方法 。ALP 将 标识 帕 累 托 前 沿 
转变 成 一 个 有 监督 的 机 器 学 习 任务 。 产生 监督 信息 的 计算 工作 量 由 一 个 主动 学 习 战 略 来 降低 。 
值得 一 提 的 是 , 该 模型 是 从 一 组 有 信息 量 的 训练 目标 向 量 中 训练 得 到 的 。 

本 章 最 后 想 说 的 是 , 请 记 住 ,如 果 你 需要 解决 一 个 有 挑战 性 的 问题 ,智能 优化 的 力量 之 
源 既 能 帮助 定义 你 想 完 成 的 任务 , 又 能 实际 计算 出 一 个 或 多 个 解决 方案 。 

许多 情况 下 ， 一 些 决策 可 能 ， 并 且 也 许 应 该 推迟 ， 直 到 有 专家 用 户 对 初步 可 能 的 解决 方 
案 做 出 评价 。 
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当 顾问 访问 一 个 企业 时 ， 如 果 以 传统 的 数学 方式 来 优化 ， 那 么 他 会 问 的 典型 问题 
Re: “您 的 企业 中 ， 要 优化 的 函数 是 什么 ?” 他 说 “函数 ”的 意思 是 明确 的 数学 模型 ， 将 
输入 (决策 ) 和 输出 (如 利润 ) 联系 起 来 的 公式 ， 没 有 任何 含糊 之 处 。 这 种 态度 再 加 上 大 多 
数 企业 缺乏 明确 定义 的 模型 , 也许 就 是 把 最 优化 的 能 量 扼杀 在 现实 世界 中 的 原因 。 

企业 所 有 者 告诉 顾问 :“ 对 不 起 , 我 没有 数学 函数 。 LION 方式 打开 了 一 扇 希望 之 窗 ， 
并 带 来 了 释放 优化 能 量 的 机 会 。 他 可 以 回答 说 :不 要 担心 , 即使 您 不 能 给 我 您 的 模型 , 我 
可 以 根据 您 的 数据 和 反馈 建立 一 个 模型 给 您 ”使 用 一 台 个 人 电脑 来 支持 决策 ， 并 不 会 让 
你 废弃 个 人 的 专业 大 脑 。 

大 多 数 问题 求解 和 优化 工作 本 质 上 是 有 学 习 参 与 的 迭代 过 程 ,从 数据 中 学 习 , 也 从 决 
策 者 那里 学 习 。 当 这 一 做 法 得 到 公认 , 我 们 会 迎 来 一 个 充满 机 会 的 田 新 时 代 。 现 在 仍然 需 
要 很 多 的 努力 , 对 数据 科学 家 来 说 是 个 好 消息 , 不 过 前 进 的 道路 已 经 在 地 图 上 了 。 
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百科 全 书 将 出 现 全 新 形式 ， 它 会 是 一 张 有 相互 关联 的 条 目 
贯穿 其 中 的 网 ,被 当 作 记忆 的 扩展 存储 器 (memex ) 并 被 放大 。 


TAR ”布什 1945 

















机 器 学 习 和 优化 的 应 用 是 不 计 其 数 的 。 接 下 来 的 章节 考虑 了 两 个 例子 : 文本 挖掘 ， 它 本 
吴 就 是 一 个 完整 的 领域 ， 合作 推荐 ， 企 业 从 简单 客户 数据 中 提取 有 价值 的 信息 的 一 个 典范 
案例 。 

如 果 数 据 是 非 数 字 元 素 的 集合 , 例如 文档 , 我 们 仍然 可 以 使 用 很 多 分 析 数 字数 据 的 技术 ， 
但 是 需要 对 文档 进行 适当 的 预 处 理 , 并 对 ML 方法 进行 微调 。 预 处 理 将 文本 转换 成 包含 数值 
的 向 量 。 ML 的 微调 方法 要 处 理 很 多 情况 : 回 量 的 坐标 数 可 能 十 分 庞大 , 文字 具有 歧义 ,文本 
结构 难以 分 析 , 还 有 需要 特 设 度量 、 特 征 选择 和 提取 的 情况 。 

言 息 检索 大 多 用 于 搜索 文档 和 文档 中 的 信息 。 网 页 挖掘 则 是 调整 方法 以 适应 于 万 维 网 的 
情况 。 网 页 是 一 种 非 结构 化 (或 者 最 多 半 结 构 化 ) 数据 集 , 主要 是 人 类 可 读 的 文本 和 图 像 的 形 
式 ， 通 过 超 链接 相连 。 网 页 不 是 一 个 数据 库 : 数据 项 结构 (模式 ) 的 完整 描述 是 没有 的 ， 它 只 
是 人 类 可 读 的 数据 和 可 用 的 超 链 接 的 一 个 混乱 集合 。 已 经 有 一 些 工 作 帮 助 机 器 (计算 机 ) 通 
过 语义 支持 来 自动 提取 网 页 的 意思 , 但 是 由 于 其 无 组 织 性 和 不 断 发 展 的 结构 ， 这 一 任务 十 分 


艰巨 。“ 语 义 ” 指 数据 项 所 表达 的 “意思 ” 所 谓 的 语义 网 (Semantic Web) 就 是 向 网 页 添加 元 
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数据 一 一 关于 数据 含义 的 数据 一 一 使 得 目 动 代理 和 软件 能 够 更 智能 地 访问 网 页 , 例如 理解 
某 个 字段 是 人 名 ， 某 个 字段 是 年 龄 ， 某 个 字段 是 地 址 等 。 

“大 数据 ”是 一 种 流行 的 商业 术语 ， 它 所 描述 的 数据 集合 是 如 此 之 庞大 、 复 杂 和 非 结构 
化 ， 以 至 于 传统 数据 处 理 的 应 用 程序 难以 应 付 。 

记 住 , 网 页 所 包含 的 除了 文本 , 还 有 标签 (tag), 它们 修改 外 观 和 文本 的 含义 ， 其 中 包含 
到 其 他 文档 的 链接 〈 超 链接 )， 一 些 情况 下 还 有 元 数据 描述 不 同 部 分 的 含义 。 图 25-1 展示 了 
一 个 简短 的 HTML 网 页 的 例子 。 没有 网 页 是 一 座 孤岛 其 实 超 链接 对 网 页 的 搜索 、 排 名 、 分 
类 都 有 帮助 。 当 然 , 其 他 领域 也 存在 类 似 的 链接 结构 ， 如 社交 网 络 和 论文 参考 文献 等 。 


<html> 
<head> 










































































































































































<title>Learning and Intelligent Optimization</title> 

<meta name="author" content="Roberto Battiti"> 

<meta name="keywords" content="LION, ML, optimization, big data"> 
</head> 

<body> 

<hi>The LION way is the future</hi> 

The reasons are explained in the 


<a href="intelligent-optimization.org"> LIONlab homepage </a>. 




















</body> 
</html> 
图 25-1 ”一 个 超 文本 标记 语言 (HTML) 网 页 的 例子 , HTML 是 网 页 的 标准 语言 , 描述 了 整个 页 
面 的 结构 
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在 冒险 尝试 更 有 趣 的 网 页 挖掘 任务 之 前 ， 如 排名 、 聚 类 和 分 类 ， 先 开始 了 解 如 何 收集 网 
页 的 原始 内 容 〈 压 虫 )， 以 及 如 何 组 织 这 些 内 容 为 进一步 的 分 析 做 准备 〈 索 引 )。 如 果 你 不 关心 
原始 数据 是 如 何 得 到 的 ,只 对 高 层次 的 网 页 挖掘 问 题 有 兴趣 ,你 可 以 直接 跳 到 25.2 节 。 

所 收集 的 文档 经 过 处 理 后 , 成 为 适 于 回答 查询 和 检索 信息 的 索引 。 不 同 于 RDBMS (关系 

数据 库 ) 的 情况 ,回答 的 顺序 是 基本 的 : 用 户 希 望 首先 看 到 相关 数据 。 换 句 话说 ,目的 是 最 大 
化 前 几 个 答案 就 能 满足 用 户 需 求 的 概率 。 网 络 礁 虫 和 网 页 索引 的 结合 就 是 一 个 搜索 引擎 。 
在 菜 些 情况 下 , 为 简化 搜索 而 建立 目录 。 它们 是 树 形 结构 的 (分 类 ), 最 初 是 人 工 设计 的 。 
文件 的 组 织 过 程 可 以 自动 通过 聚 类 和 无 监督 学 习 方法 来 完成 。 其 目的 是 自动 发 现 文档 的 分 组 ， 
使 得 同一 组 内 的 文档 比 不 同 组 中 的 文档 更 为 相似 。 正 如 人 们 所 认为 的 ， 设 计 自 动 化 的 文档 聚 
类 技术 时 ， 相 似 性 度量 是 一 个 全 关 重 要 的 问题 。 


25.1.1 EH 


Py Ua GRA Ab Fa FER, Si Tal ACR a A RTT A. ME A A SE AS 
原理 包括 从 一 组 给 定 的 URL 开始 访问 网 络 , 获取 和 收集 相应 的 页 面 , 扫描 收集 到 的 网 页 来 找 
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出 未 被 收集 的 网 页 超 链 接 。 
如 果 你 熟悉 图 论 , 用 节点 表示 网 页 , 边 表示 链接 , 任务 就 是 遍历 图 , 即 以 系统 化 的 方式 访 





问 所 有 节点 ， 同 时 避免 
些 知识 一 起 使 用 , 虽然 如 此 ,| 





























莉 复 访问 。 基 本 爬虫 对 网 络 的 访问 能 够 与 底层 通信 协议 (HTTP ) 的 一 
于 要 避免 很 多 陷阱 , 仍 需 仔细 考虑 设计 。 





© 许多 网 页 服务 器 假设 人 的 意愿 是 网 页 请 求 的 动力 , 因此 , 它们 认为 任何 每 秒 获 取 许 多 


网 页 的 尝试 都 是 攻击 ,并 以 拒绝 访问 来 啊 应 。 
在 互联 网 上 , 越 来 越 多 的 网 页 在 细节 上 是 动态 的 , 其 内 容 取决 于 用 户 预 先 输 入 的 数据 ， 



































也 取决 于 预先 存在 客户 端的 cookie， 甚 至 还 取决 于 请 求 来 自 的 位 置 ; 因此 , 任何 自动 


收集 所 有 可 用 信息 
。 解析 主机 名 可 能 
是 件 容易 的 事 。 























的 企图 都 会 失败 ， 系 统 事先 必须 获取 一 些 用 户 的 信息 。 
获取 数据 本 身 需 要 更 长 的 时 间 ; 一 般 情况 下 , 确定 真正 的 瓶颈 并 不 






































。 现在 网 页 中 占 主 导 地 位 的 是 带 有 多 对 多 关系 的 虚拟 服务 器 〈 域 名 对 应 IP 地 址 ，URL 











识别 。 














对 应 网 页 ， 何 况 还 有 镜像 或 抄袭 的 信 























二 二 三 图 























县 )， 于 是 那些 已 经 被 访问 的 网 页 越 来 越 难 以 














路 径 

一 一 > 页 面 内 容 
----3 > URL 

ia > 域名 和 IP 地 址 








本 地 机 器 


1 
a A ! ee Sg i 
< --- : 


等 待 队 列 






至 索引 /存储 


图 25-2 个 基本 的 爬虫 结构 : 从 网 页 中 提取 URL 并 加 入 队列 ; 提前 获取 域名 解析 以 防 潜 在 的 


DNS 








瓶颈 





图 25-2 FRAN SSA a MR: 尚未 访问 过 的 网 址 保存 在 一 个 队列 中 ; 每 获取 一 个 
页 面 , 扫描 该 页 面 查找 新 的 URL. 为 了 克服 上 述 的 DNS 瓶颈 , 可 以 在 该 URL 的 最 终 请 求 之 
前 发 出 一 个 初步 的 DNS 请 求 。 避免 页 面 和 URL 重复 也 很 重要 ,因此 可 以 在 整个 工作 流程 中 
放置 各 种 “是 新 的 吗 ?” 检 查 点 。 








25.1.2 ”索引 


















































索引 是 必需 的 预 处 理 ， 使 查询 可 以 迅速 得 到 回答 。 这 是 最 简单 并 且 迄 今 为 止 最 常用 的 一 
种 查询 , 包括 一 个 或 一 个 以 上 的 条 件 , 在 某 些 情况 下 , 这 些 条 件 由 布尔 运算 符 相 连接 。 例如， 
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人 们 可 能 搜索 含有 单词 “Reactive” 而 不 含 单词 “Search” 的 文档 ; 包含 短语 “Reactive Search 








Optimization” ICR; 








“Reactive” JI “Search” H ILZ [Al 
建立 索引 之 前 ,文档 先进 行 一 系列 清洗 步骤 , 通常 包括 : HTML 标签 和 其 他 非 相关 


























个 句子 里 的 文档 , 等 等 。 











的 标 





记 项 被 过 滤 掉 (有 一 些 例 外 一 一 应 该 保留 一 些 元 信息 , 标题 标签 可 能 会 提供 相关 性 的 信息 和 
文字 的 可 见 性 ); 标点 符号 可 以 移 除 , 如 果 需 要 也 可 以 更 换 为 句 尾 标记 ; 字母 大 小 写 统一 Chl 
如 全 部 小 写 ); 其 余 文 本 都 标记 化 〈tokenized)， 即 将 其 分 为 单词 ; 很 常见 的 词语 (“and”“I” 
“the”， 等 等 )， 也 被 称 为 停止 词 (stopword)， 需 要 被 除去 ; 同一 个 词 的 不 同形 式 都 转变 为 词 
干 〈 这 样 “play”“playing” 和 “played” 都 对 应 同样 的 标记 )。 











虽然 在 这 个 过 程 
































P, 并 非 所 有 的 原始 信息 都 被 保存 , 从 信息 检索 的 

















3 度 来 说 , BAN 


部 分 


主要 是 噪声 , 如 果 用 户 发 送 查 询 “Shakespeare play” 给 搜索 引擎 , 他 会 期 望 含有 “Shakespeare 





plays” WAR, FFA 
图 25-3 






































含 其 在 内 的 文档 列表 。 



































(图 





合适 的 大 小 写 和 单 复数 形式 。 
展示 了 两 个 样本 文档 ”“，d 和 da, 其 中 下 标 表 示 符 号 在 文档 中 的 位 置 。 
直接 索引 是 将 词 项 ID tid 映射 为 文档 中 
侧 展示 了 这 样 的 一 张 表 , 在 这 张 表 昌 
张 表 )。 反 向 索引 通过 “ 转 置 ” 前 一 张 表 得 到 


PAJ ID 和 位 置 


25-3 的 





























(did,pos) 的 一 张 表 。 图 25-3 的 左 
E 搜 索 包 含 某 符号 的 所 有 文档 是 非常 低 效 的 (必须 扫描 整 
































GK), } 


且 给 出 对 应 每 个 符号 





dy 


dy 





图 25-3 











O 选 











My1 carez iss lossy ofs cares, by7 olds careg done1o. 


Your, carez is3 gainy ofs cares, by7 news careg Wonio. 


莎士比亚 的 《 理 查 二 世 》, 第 





did pos 
1 1 

1 2 

1 3 

2 8 

2 9 

2 10 


tid 


by 
old 
done 
your 
gain 
new 


won 


























两 个 文档 (顶端 ) 及 其 直 





第 一 场 。 





pos list 


d 


d 





/1 


d1/2,6,9 // d2/2,6,9 


/3 // d2/3 
/4 
/5 // d2/5 
/7 // d2/7 
/8 
/10 


d2/1 
da/4 
da/8 


d2 
接 索 引 〈 左 表 ) 和 反 向 索引 〈 右 表 ), KA 


/10 














参考 文献 [34] 
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25.2 ”信息 检索 与 排名 


网 页 的 原始 内 容 被 正确 保 在 和 预 处 理 〈 添 加 索引 ) 之 后 ， 现 在 来 考虑 更 有 趣 的 任务 ， 搜 
索 文 要 和 文档 内 包含 的 信息 ， 也 称 为 信息 检索 (IR)。 在 一 般 情况 下 ， 人 们 想 检 索 到 与 查询 相 
关 的 、 质 量 良好 的 文档 。 如 果 搜 索 “loss” 和 “care”, 可 能 检索 到 莎士比亚 , 但 也 可 能 是 “hair 
loss care” 相 关 的 文档 , 这 很 可 能 是 你 不 想 要 的 结果 ,如果 你 的 兴趣 是 文学 , 而 不 是 防 脱发 护 
理 的 话 。 

文档 检索 性 能 指标 的 标准 定义 如 下 。 如 果 4 是 相关 的 文档 ，B 是 检索 到 的 文档 〈 见 图 
25-4 以 及 3.3 节 的 图 3-4), 可 以 确定 : 

。 检索 到 的 相关 文档 〈 真 阳性 ) X ANB; 

。 检索 到 的 无 关 文 档 〈 假 阳性 ) 为 B\ A; 

。 未 检索 到 的 相关 文档 〈 假 阴性 ) 为 4\ Bo 

检索 系统 的 精确 率 (precision) 定义 为 检索 到 的 文档 中 相关 文档 的 比例 : 


































































































该 系统 的 召回 率 (recall) 定义 为 相关 文档 被 检索 到 的 比例 : 


14nB| 
JA 


召回 率 = 





la] 数据 库 中 的 相关 文档 


和 则 检索 到 的 文档 
SS 


图 25-4 信息 检索 ; 相关 文档 和 检索 到 的 文档 


召回 率 度量 与 网 络 搜索 通常 不 那么 相关 ， 因 为 相关 文档 的 数量 对 于 人 工 检 查 来 说 通常 是 
WAM. 而 对 于 搜索 引擎 而 言 , 呈现 给 用 户 的 结果 的 次 序 是 至 关 重 要 的 。 一 般 情况 下 , 意味 着 
对 文档 进行 排名 ， 因 此 适当 的 性 能 指标 应 该 青睐 那些 将 相关 文档 放 在 最 前 面 的 方法 ,并 在 用 
户 浏览 器 中 首先 显示 它们 ， 作 为 对 搜索 的 响应 。 

考虑 图 25-5, 其 中 浅 色 点 代表 相关 文档 , 右 侧 显示 了 排名 。 很 明显 , 最 优 排名 过 程 应 该 将 
浅 色 文档 放置 在 顶部 。 考 虑 到 这 一 点 ， Oe We wire 

设 D 是 包含 n= |D 个 的 文档 的 语料库 , S q 是 一 个 查询 。Ds CD 定义 为 与 q 相关 的 
所 有 文档 。 假设 Dy 表示 该 系统 “所 希望 ” WER. S (di, d§,---,d4) 为 DD 的 一 个 次 序 (“ 排 
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名 ”)， 是 系统 对 查询 q 返回 的 啊 应 。(r7,73,… ,74) 定义 为 























N E it} 











图 25-5 一 个 排名 的 例子 























现在 可 以 定义 排名 相关 的 召回 率 和 精确 率 , 这 将 有 助 于 回答 这 个 问题 :“ 如 果 只 用 了 排 在 
前 & AWER, 我 们 如 何 评价 系统 性 能 ?” 
排名 为 的 召回 率 定义 为 在 前 个 位 置 找到 相关 文档 的 比例 : 














| 























k 
AE K(k) = TRA 


类 似 地 ,精确 率 定义 如 下 : 




















k 
精确 率 ,(h) = > Sor? 


i=1 




















与 往常 一 样 , 没有 免费 的 午餐 : 在 分 析 排 名 列表 时 ,召回 率 可 以 通过 增加 的 值 来 提高 ; 
但 如 果 这 样 , 就 会 出 现 越 来 越 多 的 不 相关 文档 ， 从 而 拉 低 了 精确 率 (精确 率 - 召 回 率 平衡 )。 
25.2.1 ”从 文档 到 向 量 : 向 量 -空间 模型 

为 了 使 用 向 量 空 间 的 标准 技术 来 搜索 、 聚 类 和 分 类 文 要 ， 首 先 需 要 将 每 个 文档 映射 到 一 


个 向 量 (向 量 - 空 间 模 型 )。 
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预 处 理 后 , 现在 你 的 文档 是 单词 的 一 个 包 , 实际 上 是 标记 的 一 个 包 , 而 得 到 一 个 向 量 的 最 
简单 方法 是 : i) 固定 一 套 单词 (标记 ); ii) 每 个 单词 (标记) 都 由 一 个 单独 的 数 轴 来 表示 ; iii) 
如 果 文 档 不 包含 某 符号 t, 那么 向 量 对 应 数 轴 ¢ 上 的 值 设 为 零 ; 如 果 在 文档 中 包含 该 词 一 次 或 
更 多 次 , 那么 设 为 一 个 大 于 零 的 数 。 

WR n(d, t) 是 文档 d 包含 单词 t 的 次 数 , 那么 单词 二 在 文档 dd 中 的 词 频 (term frequency) 
TF(d,t) 定义 为 关于 上 在 d 中 的 相对 频率 单调 递增 的 数字 。 一 些 可 能 的 定义 如 下 : 


n(d, t) 






















































































TF(d,t) = 


0 n(d,t) =0 





I 


TFsmart(d,t) = | 








1+log(1+logn(d,t)) 其 他 情况 


如 果 一 个 词 出 现 的 次 数 太 多 , 可 用 该 TFsmarr 式 子 避 免 某 一 维 上 出 现 夸张 的 值 。 在 网 页 
出 现 的 最 初 儿 年 里 , 这 是 一 个 常见 的 情况 ， 当 时 简单 的 搜索 引擎 只 计算 词 出 现 的 次 数 。 曾 经 
有 很 多 网 页 为 了 在 用 户 搜 索 时 排 在 前 面 ,故意 包含 像 “sex” 这 样 的 词 , 重复 出 现 多 达 数 百 次 。 
事实 上 , 最 近 的 搜索 引擎 通过 使 用 超 链 接 信息 来 打击 这 种 垃圾 信息 , 后 面 的 章节 将 会 提 到 。 
事实 上 , 最 有 趣 的 词 往往 是 文档 中 不 太 常 见 的 词 罕见 词 如 “C++ ”反馈 搜索 优化 ”““ 随 
机 的 ” 它们 可 能 比 “ 是 ”“ 好 ?“ 自 由 ”“ 优 秀 ” 包 含 更 多 的 信息 )。 逆 文档 频率 可 以 定义 为 一 
个 随 着 某 个 词 的 整体 词 频 在 全 体 文 档 语料库 中 增加 而 单调 递减 的 数字 : 
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1+ |D| 
|D;| 


其 中 Di 是 包含 词 t 的 文档 集合 ,对 数 用 于 避免 那些 非常 罕见 的 词 带 来 的 夸张 乘 数 。 值 得 注 
意 的 是 ， 上 述 方法 得 出 的 向 量 是 启发 式 的 ， 并 不 是 基于 信息 理论 那样 的 基本 原则 。 如 果 你 认 
为 对 数 用 在 这 里 不 合适 ， 可 以 随意 尝试 其 他 的 函数 。 降 低 了 出 现在 太 多 文档 中 的 弱 词 的 重要 
性 后 ,， TF-IDF 空间 〈 词 频道 文档 频率 ) 中 的 特定 文档 4 由 下 面 的 向 量 表示 : 


IDF(t) = log 




































































cr 






































d= (dt) teterms E piens 





di = TF (d, t)IDF(t) 
查询 q 是 由 词组 成 的 一 个 序列 ， 因此 允许 其 表示 q = (w) 和 文档 位 于 同一 空间 。 给 定 查 


和 
询 q 和 文档 d, 现在 通过 考虑 向 量 空 间 相似 性 的 度量 ,可 以 测量 它们 的 邻近 度 ,， 如 图 25-6 所 
示 。 下 面 列 出 了 两 个 在 TF-IDF 空间 中 经 常 使 用 的 相似 性 度量 。 
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CO rNWAHR ODN OCO 


副本 和 q 之 间 的 相似 怕 





图 25-6 ”几何 解释 














KRES ||d 一 qjl。 为 了 避免 量 极 的 不 统一 , 向 量 应 被 归 一 化 , 也 就 是 说 , 原文 档 d 的 
EDA d 本 身 和 q 之 间 的 相似 性 相同 : 





lien ~ ial 
lall Ilall 


。 余弦 相似 性 ,， 即 向 量 @& 和 q ZARR: 








也 可 以 参见 式 (15.3)。 




















KAA |. AA 


了 这 一 主题 的 更 多 细节 。 

















25.2.2 ”相关 反馈 


如 上 所 述 , 将 查询 转化 成 向 量 后 
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TE 
sx 











并 返回 给 用 户 。 











不 幸 的 

















首 不 奇怪 。 


HE» 





因此 , 基于 TF-IDF 坐标 的 信 ， 








由 于 平 第 的 网 页 查询 只 





d-q 
llall llall 























昌 检 索 系统 工作 原理 如 下 。 首 先 建立 TF(t,d) 和 IDF(t) 信 








上 面 给 出 的 








一 个 查询 时 , 将 它 映射 到 TF-IDF 空间 , 根据 相似 性 度量 对 文档 进行 排名 ， 
并 返回 最 相似 的 文档 。 搜 索 方 法 可 以 不 同 的 方式 扩展 , 例如 搜索 短语 。 参考 文献 [34] 中 给 出 























注意 ,传统 的 TF-IDF 表示 中 没有 什么 神奇 的 : 这 只 是 一 个 启发 式 的 方法 , 给 信息 量 更 
丰富 的 单词 更 大 的 权重 ,使 | 
D 的 更 复杂 的 度量 学 习 或 特征 选择 方法 会 带 来 更 好 的 结果 , 但 需要 用 户 提供 更 多 的 信息 。 








标准 度量 能 得 出 合理 的 结果 。 基 于 信息 内 容 ( 如 互信 




















， 可 以 用 一 个 向 量 相似 性 度量 来 识别 一 组 最 相似 的 文档 








有 一 个 词 或 两 个 词 那么 长 , 检索 到 很 多 不 相关 的 内 容 























Al J 


Ay —. 
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个 严 下 


度量 来 定性 地 排名 文档 (例如 25.3 节 的 PageRank), 





么 至 少 以 一 种 方式 来 快速 地 从 用 户 获得 反馈 , 并 以 此 产生 更 好 的 查询 。 
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罗 基 奥 方法 (Rocchio’s Method) 更 新 用 于 第 一 查询 的 向 量 ， 使 之 相似 于 被 用 户 标识 为 相 
K EK) 的 文档 的 描述 向 量 , 而 区 别 于 被 列 为 不 相干 (不 喜欢 ) 的 向 量 ， 如 图 25-7 所 示 。 这 
一 过 程 可 以 想象 为 用 户 喜欢 的 文档 吸引 查询 向 量 , 不 喜欢 的 文档 排斥 查询 向 量 。 具体 来 说 , A 


询 向 量 被 更 新 为 : 
q=aq+6B >》 d-7 od 
dED4 deD_ 
中 , Dy 是 一 组 用 户 喜 欢 的 文档 , D- 是 一 组 用 户 不 喜欢 的 文档 。 参数 a、6 和 7 控制 改变 的 
旧 心 的 读者 可 能 会 注意 到 , 原型 向 量 更 新 的 方式 与 第 17 章 中 的 自 组 织 映射 的 方式 相似 。 
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RY 
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负 反 馈 文档 
正 反 馈 校 验 



































图 25-7 罗 基 奥 方 法 





25.2.3 ”更 复杂 的 相似 性 度量 


在 一 个 TF-IDF 向 量 空间 ， 可 以 用 距离 上 的 递减 函数 定义 两 个 词 之 间 的 “相似 性 ”为 距 
离 的 逆 。 例 如 , 尽管 一 个 对 象 与 自身 进行 比较 时 , 相似 性 趋 于 无 穷 , 但 需要 某 些 修正 。 如 果 这 
些 元 素 用 了 集合 表示 法 ， 可 以 用 另 一 个 相似 性 度量 : 杰 卡 德 系数 Jaccard coefficient). & A 
和 B 为 两 个 (有 限 ) BA, AA B 的 杰 卡 德 系数 定义 为 
， ANB 
r'(A, B) = AUB 
它 的 目标 应 该 很 清楚 : 将 两 个 集合 中 的 共同 元 素 (交集 ) 和 它们 的 总 规模 进行 比较 。 它 在 0 和 
1 ZERE, r(A, B) = 0 表示 两 个 集合 中 没有 共同 元 素 , r(A, B) = 1 表示 A 和 B 是 相等 
的 。 一 个 附加 的 重要 性 质 是 , 1 一 rw'(4, B) 是 一 个 距离 ， 它 服从 一 个 度量 的 所 有 人 改 
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接 下 来 采用 一 个 更 以 文档 为 中 心 的 定义 。 如 果 d 是 一 个 文档 ， 那 么 定义 T(q) 为 它 所 包 
含 的 一 组 标记 〈 词 )。 需 要 注意 的 是 ,由 于 集合 中 的 元 素 一 般 来 讲 没有 多 重 性 (multiplicity), 
而 且 我 们 只 对 二 进 制 模型 感 兴趣 , 即 一 个 词 或 者 存在 , 或 者 不 存在 。 那么 , 这 两 个 文档 的 杰 卡 


德 系数 是 

































































(ds) n T(as)| 
|Z (d,) U T(d2)| 
在 搜索 引擎 中 使 用 的 的 杰 卡 德 系数 基于 以 下 事实 : 用 户 所 认为 的 查询 通常 是 一 组 不 重复 
的 词 , 没有 用 户 会 在 谷歌 里 输入 类 似 “reactive reactive search” 的 查询 ， 然 后 期 盼 返回 包含 单 
词 “reactive” 两 倍 于 单词 “search” 的 文档 。 
下 面 是 一 种 计算 杰 卡 德 系数 m(.…) 的 算法 框架 
。 对 每 一 个 de D 
一 对 每 一 个 词 te T(q): 将 记录 (t,d) 存 进 文件 fio 
o LA (t,d) 的 顺序 对 fi 进行 排序 , 然后 将 其 合并 成 (t, De) 的 形式 。 
。 对 每 一 个 在 fi 扫描 到 的 词 t 
一 对 每 一 对 dı, d2 E€ Di: 将 记录 (di, d2,t) 存 进 文件 foo 

o LA (di,d2) 的 顺序 对 fo 进行 排序 , 然后 将 其 加 入 第 三 个 字段 进行 合并 。 

一 些 技巧 可 降低 搜索 成 本 ， 比 如 可 以 预先 为 所 有 文档 查询 对 计算 杰 卡 德 系数 ， 否 则 需要 
大 量 的 存储 和 CPU 时 间 ; 或 者 通过 给 每 个 文档 或 者 查询 预 关 联 一 个 小 而 数量 固定 的 最 相似 
文档 的 列表 , 减少 文档 查询 对 的 数量 。 此 外 , 非常 频繁 的 词 〈 低 IDF) 可 以 完全 不 考虑 。 

在 实践 中 , 许多 情况 下 人 们 对 近似 (approximating) 系数 感 兴趣 。 一 个 可 行 的 方式 是 利用 
随机 排列 的 有 趣 的 随机 算法 。 
如 果 使 用 概率 ,给 定 集合 4 和 B, 我 们 从 这 个 有 趣 的 等 式 开始 : 
JAn B] 
JAU B] 


如 采 可 以 估计 上 述 概 率 , 就 可 以 估算 杰 卡 德 系数 。 我 们 所 能 做 的 是 从 集合 5 c {1,… ,n} AE 
成 随机 元 素 , 并 通过 事件 的 比值 来 估算 概率 。 

从 集合 5 C {1…… ,n} 中 选择 随机 元 素 , 可 以 选择 ”个 元 素 的 随机 排列 r FE S 中 挑 
选 元 素 , 使 得 它 在 r 中 的 像 是 最 小 的 : 


r’ (dy, dz) = 


















































































































































= Pr(x € AN Biz € AUB) 




































































x = argmin m(x) = arg min T(S) 
ves 


当 应 用 于 4U B 时， 该 方法 在 交集 中 定位 一 个 元 素 , 当 且 仅 当 : 

















= 








min 7(A) = min z(B) 





因此 , 可 以 通过 随机 排列 并 检查 两 个 最 小 值 是 否 重合 来 估计 上 述 比 例 。 
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接 下 来 证 明 为 什么 排列 是 有 效 的 。 给 定 集合 A,B C {1…… ,nn}, 为 了 得 出 两 个 最 小 值 重 
合 的 概率 , 建立 一 个 排列 , 计算 有 多 少 排列 r: (1,--- ,nn} 一 位 ,… ,n} (nl 个 可 能 性 ) 有 下 述 




















min 7(A) = min z(B) 





从 图 25-8 中 应 当 搞 清楚 的 是 : 
© AUB ( 灰 块 和 斜纹 块 ) 的 像 有 AG pj) 种 不 同 的 选择 方式 
。 在 这 样 的 像 中 , 可 以 在 组 成 交集 的 |4n B| 个 元 素 中 选取 最 小 元 素 ( 粗 第 头 ); 
。4U B 的 像 中 的 其 余 元 素 可 以 有 (|4U B|- 1)! 种 排列 方法 RI: 
。 不 在 AUB 内 的 元 素 有 (n— |AU BI)! 种 排列 方法 《虚线 箭头 )。 

所 有 这 些 相 乘 之 后 ,可 以 得 到 ， 
























































|AN BI 
[AUB] 





(aoB) 40 BI AUB- D! (n= JAU B)! =n! 











除 以 排列 的 总 数 后 ,推导 出 所 需 的 等 式 。 














时 到 最 /| 
映射 到 并 集 
下 的 词 
























































词 的 排列 集合 
图 25-8 构建 一 个 排列 
一 个 随机 但 效率 低下 的 算法 如 下 : 
e 生成 词 集 上 的 m 个 排列 的 集合 I; 
e k0; 
e 对 每 一 个 ne I 
一 若 minx(T(di) 
o 估计 7/(di,d2) % 
通过 将 随机 算法 与 多 文档 系数 的 同步 计算 相 结 合 ,就 能 够 处 理 万 维 网 中 的 大 量 文 档 ， 划 
中 随机 算法 使 用 适用 于 外 部 存储 的 数据 结构 。 























WN 


=min7(T(d2)), Wk — k+1; 
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S| > 


















































25.3 ”使 用 超 链 接 来 进行 网 页 排名 
如 前 所 述 ， 网 页 是 如 此 之 多 ， 以 至 于 检索 一 些 与 查询 相关 的 页 面 的 集合 已 远 远 不 够 ， 还 
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要 检索 高 质量 的 相关 网 页 集合 。 这 个 问题 早 在 网 页 出 现 之 前 就 有 了 ， 阅 读书 籍 或 论文 时 也 会 
遇 到 。 人 们 想 把 精力 花 在 高 质量 的 某 一 主题 的 论文 上 , 不 会 在 质量 差 的 论文 上 浪费 时 间 。 在 
科学 界 ， 如 果 一 篇 论文 被 其 他 高 质量 的 论文 引用 ,那么 这 篇 论文 也 会 被 认为 是 高 质量 的 ， 因 
为 这 意味 着 有 些 同行 发 现 这 篇 论文 有 用 ,并 通过 把 该 论文 加 入 到 引文 列表 中 以 表示 认可 。 一 
个 更 现实 的 比喻 是 ， 某 个 应 聘 者 是 有 价值 的 ， 如 果 有 许多 其 他 有 价值 的 人 准备 推荐 他 。 一般 
情况 下 参见 图 25-9, 在 人 与 人 之 间 的 社交 网 络 中 , 一 个 人 的 声誉 是 通过 其 他 拥有 高 度 声誉 的 
人 推荐 而 获得 的 。 说 服 许多 声誉 不 够 高 的 人 文 持 你 是 不 够 的 , 没有 捷径 可 走 ! 


























































































































图 25-9 ”社交 网 络 中 的 声望 ; 被 声望 高 的 人 推荐 (或 者 有 关联 ， 上 图 ) 比 被 声望 低 的 人 推荐 (下 
图 ) 更 容易 使 一 个 人 获得 高 声望 






















































































马尔 基 奥 里 一 篇 开创 性 的 论文 [81] 强调 了 超人 信息 ( 超 链接 中 的 信息 ) 的 重要 性 后 , 拉 里 
佩 奇 和 谢 尔 六 ” 布 林 开 发 了 PageRank 算法 , 这 一 算法 遵循 同样 的 基本 社交 网 络 原则 ， 用 超 
链接 代 禁 了 “建议 ”和 “引用 ”区 9 (作者 后 来 成 为 了 谷歌 创始 人 )。 他 们 定义 了 “声望 度量 ”， 
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使 得 网 页 的 声望 与 链接 到 它 的 声望 高 的 网 页 的 数 
为 了 衡量 一 个 页 面 
是 : 先 从 一 个 声望 值 的 初始 分 布 开 


案 























日 





相关 。 值得 注意 的 是 , 这 


里 














+ ale 





的 声望 ， 需 要 知 



































指向 它 的 网 页 的 声望 等 信息 。 简 而 言 之 
P TEAR SEAS TA A BYE, 直到 





qa 


























HE 


个 递归 定义 。 
， 他 们 的 解决 方 





重新 计算 后 的 声 




















望 值 变 化 很 小 为 止 , 就 这 么 简单 ! 这 种 方法 乍 一 看 会 让 人 觉得 不 太 可 靠 。 是 什么 能 够 保证 , 无 
采用 什么 初始 分 布 , 总 能 收敛 到 相同 的 最 终 分 布 ? 


论 


概 


法 


链 


的 动机 很 明显 : 一 个 排名 很 高 的 网 页 指向 数量 庞大 的 

















Ss 
念 是 怎样 与 这 
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如 何 相 关 的 
检查 链 入 链 


入 链接 为 排名 











xá 
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人 太 多 。 如 果 没 有 除法 ,那么 排名 
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图 25-10 


St 








在 PageRank SAP H 
自 原始 论文 ) 


鉴于 上 述 重新 计算 的 规则 ， 


啊 全 世界 的 所 有 页 面 。 


讲 得 很 快 ， 跳 过 数学 细 
接 (从 其 他 页 面 指 
献 , 等 于 i 的 排名 除 以 其 链 出 链接 的 数目 , 如 图 25-10 所 示 。 除 法 





下 主要 关系 。 

















现在 令 人 着 迷 的 是 , 基本 线性 代数 的 本 征 值 和 本 征 向 量 的 概念 ， 以 及 马尔 可 夫 链 的 相关 
问题 的 解决 方案 关联 起 来 的 。 下 面 来 总 结 一 
首先 来 看 看 ， 从 初始 分 布 入 手 和 迭代 地 计算 声望 ,与 计算 矩阵 的 主 本 征 向 量 的 经 典 韩 迁 代 











W, 只 为 了 让 大 家 对 该 方法 有 





些 体会 。 

















向 给 定 页 面 的 超 链接 )， 计 算出 网 页 的 排名 。 每 个 网 页 i 的 








页 面 ， 就 像 一 个 人 很 有 
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计算 网 页 的 排名 , 初始 排名 沿 着 链 出 链接 分 发 于 





日 从 
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REI AM M 对 前 一 次 的 值 进行 线性 变换 而 计算 得 到 ,如 下 所 示 : 





重 


新 计算 : 








p” = Mp"! 





pr E M*"p? 





声望 , 但 推荐 的 


居 首 位 的 网 页 的 所 有 者 就 可 以 仅 靠 投放 大 量 的 链 出 链接 影 


1 其 他 网 页 ( 改 











出 了 超 链接 的 网 络 , 第 次 迭代 时 的 新 排名 值 p W 











JERE M 仅 依 赖 于 链接 结构 ， 即 页 面 之 间 的 链接 。 现在， 从 初始 排名 分 布 p? 开始 , 执行 次 
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假定 存在 M 的 本 征 向 量 的 一 组 基 向 量 , 令 和 ,和 2,… An A n ARE, ES v1,v2,…， 
vn 为 相应 的 本 征 向 量 。 假设 Xi 是 主 本 征 值 ， 那么 对 于 所 有 7>1, A Ail >|AXj|。 
初始 向 量 p? 可 以 写成 一 组 基 向 量 的 线性 组 合 : 
































p? = 1V1 + c2v2 十 十 cnun 


如 果 p? 是 随机 选择 的 (以 均匀 概率 抽取 ), 那么 cl AO 的 概率 为 1。 现 在 ， 使 用 线性 性 和 本 
征 向 量 的 定义 性 质 , 可 以 马上 得 到 : 











M*p? = cM" vy, + co Mv» 于 CnM* vp, 
= cy dFv, + cork ve fe Cn rk Un 


i" eae 
= cÀ (a | ， (3) V2 see a (=) en) 


ee et nn 于 无 穷 大 时 , 除了 一 个 正比 于 主 本 征 向 量 的 
项 ， 其 他 所 有 项 都 趋 于 零 。 几 乎 所 有 从 任意 初始 条 件 出 发 的 和 矩阵 乘法 的 简单 迭代 法 ， 都 确实 
足以 提取 主 本 征 向 量 ! 
现在 考虑 一 个 不 同 的 解释 , 与 马尔 可 夫 链 有 关 。 想象 一 下 , 对 一 个 系统 进行 分 析 , 这 一 系 
统 表示 用 户 在 不 同 网 页 上 浏览 的 移动 。 假设 用 户 永 远 通 过 链 出 链接 导航 , 并 随机 均匀 地 选择 。 
令 起 始 页 u 浏览 的 行为 四 。 令 瑟 为 网 页 的 邻接 矩阵 : (u,v) € E CR Bs =D, 4SAM4F 
在 从 页 面 u 到 页 面 v 的 链接 。 浏览 者 点 击 i 次 后 到 达 页 面 v 的 概率 pi, 是 什么 ? 
下 面 从 单一 的 步 又 开始 。 浏览 者 点 击 1 次 后 到 达 页 v 的 概率 pl 是 什么 ? > 
































































































































Nu = ‘> Ew 
为 页 面 的 出 度 (五 中 第 u 行 的 和 )。 假设 不 存在 平行 边 ， 
ee 
Nu 
(u,v)EE 
通过 归 一 化 E 来 使 得 行 之 和 为 1: 
Ew 
Luv = N, 


得 到 
=X Lum 或 p'=L"p? 


现在 来 考虑 第 i 步 之 后 的 情况 : 
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如 果 BERT 2404 Crreducible) 且 非 周期 的 (aperiodic) (没有 一 个 是 真正 成 立 的 , 但 
这 个 问题 可 以 解决 )， 那 么 : 



































lim p =p 
2 一 OO 











其 中 p 是 LT 的 主 本 征 向 量 ， 也 称 作 它 的 稳定 分 布 (stationary distribution): 


p= L"p (本 征 值 为 1) 





























但 py 是 页 面 u 的 声望 (prestige), 也 由 前 面 的 解释 所 确定 。 现 在 应 该 很 清楚 ,声望 也 可 以 解 
释 为 在 一 个 给 定 页 面 沿 着 链接 找到 随机 浏览 者 的 概率 。 
现在 来 处 理 真实 世界 过 渡 和 矩阵 的 不 好 的 性 质 。 有 研究 显示 ,网 页 之 间 并 没有 强大 的 连接 ， 
并 且 其 中 的 随机 游 走 可 能 陷入 循环 。 一 个 可 能 的 解决 方法 是 引入 “阻尼 系数 ” 它 反映 了 用 户 
可 能 偶尔 停止 跟随 链接 : 在 每 一 步 以 任意 概率 d 访问 一 个 随机 页 面 ( 甚 至 是 不 相连 的 )。 因 
此 , 过 渡 可 以 表示 为 : 



































































































































d 
— t= LT =i i—1 
p ( d)L + N x)p 


JE PE KAS EMEX DY AS ASIE e E HS DA PARIE. 
0 





























e 从 一 个 随机 向 量 p — p 开始 
e 重复 
- 更 新 向 量 : P 
p< (a d)L" 4 xiv) P 
一 不 时 地 进行 归 一 化 : 
pE 
lplli 














归 一 化 是 为 了 避免 出 现 十 分 大 的 分 量 , 因此 不 会 出 现 有 限 精 度 计算 的 数值 问题 。 当然 , 在 
这 一 应 用 中 , 我 们 感 兴趣 的 不 是 绝对 声望 值 ， 而 是 相对 声望 值 。 其 绝对 值 取决 于 所 选取 值 的 
范围 (可 以 选择 0~10 来 衡量 声望 , 也 可 以 选择 0~100, 等 等 ), 而 相对 值 是 指 ， 比 如 , 某 网 页 
的 声望 比 另 一 网 页 的 声望 高 出 3 倍 。 归 一 化 是 减少 特征 向 量 倍数 影响 的 一 种 简单 方法 。 
在 实际 的 应 用 中 , 声望 的 概念 是 如 此 模糊 ， 以 至 于 没 人 期 望 能 以 高 精度 得 到 实际 的 本 征 
向 量 ! 为 了 艾 试 需要 多 入 才能 收敛 , 佩 奇 在 其 原始 论文 上 说 ,3 x 108 个 页 面 的 情况 下 ,52 次 
和 迭代 已 经 足够 了 , 这 是 一 个 相当 令 人 振奋 的 结果 , 为 重要 的 商业 应 用 铺 平 了 道路 。 



































































































































25.4 ”确定 中 心 和 权威 : HITS 








现在 考虑 一 种 不 同 的 网 页 分 析 。 在 科学 界 ， 好 的 文章 要 么 影响 深远 ( 即 被 许多 其 他 文献 
BA), 要 么 属于 综述 ( 即 引 用 许多 其 他 文献 )。 同 理 , 网 页 也 可 分 为 权威 (authority) 或 中 心 


















































25.4 确定 中 心 和 权威 : HITS 255 

















Chub) 两 类 的 。 例 如 门户 网 站 是 很 好 的 中 心 , 尽管 它们 不 包含 重要 的 信息 , 只 是 达到 高 质量 
网 页 的 起 始点 。 
为 了 反映 这 一 区 别 ， 接 下 来 介绍 两 种 度量 ， 称 为 中 心 度 〈 表 示 为 h) 和 权威 性 (表示 为 














a): 


h= (ħu), a= (au) 











现在 来 总 结 一 下 HITS 算法 ( 超 链接 诱导 主题 搜索 )。 在 HITS 算法 中 , 第 一 步 是 检索 搜 
索 查 询 的 结果 集 。 给 定 查 询 g, S R 为 一 个 IR 系统 所 返回 的 根 集 。 计 算 仅 在 此 结果 集 上 进 
行 ， 而 不 是 所 有 网 页 。 权 威 性 和 中 心 度 相 互 递归 定义 。 

通过 添加 链接 到 根 的 所 有 节点 组 成 扩大 集 : 









































Vy = R U {u : ((u => v) V (v => u)) Av € Ra} 


S Ey 为 诱导 链接 子 集 ，G = (Va, By)。 递 推 关系 定义 如 下 。 令 权威 值 hu 与 被 引用 的 权威 页 
面 总 数 成 正比 , 令 中 心 度 ou 与 被 引用 的 中 心 页 面 总 数 成 正比 。 
























































a= ETh 
h = Ea 
因此 给 出 下 列 迭 代 方 法 : 
o 初始 化 a 和 h( 例 如， 以 均匀 概率 ); 
e 重复 
= he Ea; 
= a ETh; 
一 归 一 化 hh 和 a。 











排名 靠 前 的 权威 页 面 和 中 心 页 面 报告 给 用 户 。 

主 本 征 向 量 识别 最 大 的 密集 二 部 子 图 。 若 要 找到 较 小 的 集合 , 则 必须 探索 其 他 本 征 向 量 。 
存在 从 一 个 系统 中 删除 已 知 本 征 向 量 的 迭代 方法 : 当 确定 了 一 个 本 征 向 量 时 ， 就 减少 搜索 子 
空间 。 
虽然 对 于 理论 是 有 价值 的 , 实际 中 搜索 引擎 不 常 使 用 HITS, 再 加 上 实践 中 为 不 同 的 查询 
预先 计算 中 心 度 和 权威 值 是 不 可 行 的 ， 该 算法 必须 在 查询 执行 之 后 运行 ,使 得 该 算法 对 于 通 
用 目的 而 言 十 分 笨重 。 回 到 PageRank 算法 , 注意 它 是 独立 于 页 面 内 容 的 , 因此 必须 有 机 地 结 
BAR, 具体 取决 于 执行 的 查询 。 谷 歌 组 合 查询 和 排名 的 方式 是 未 知 的 。 也 许 , 经 验 参 数 和 人 
工 检查 是 必要 的 。 
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25.5 RÆ 





聚 类 的 原因 
档 组 是 有 用 的 ， 例 如 仅 
自动 识别 的 聚 类 也 可 以 为 后 续 的 人 了 
那么 他 很 可 能 也 对 相同 聚 类 里 

















是 网 页 搜索 




















FP 检 索 文档 的 数量 巨大 。 为 了 避免 用 户 过 载 , 识别 密切 相关 的 文 

















时 获得 更 多 相似 的 文档 。 











影 明 星 ， 也 可 外 





注意 ,查询 可 以 是 模糊 的 , 万 

















词 辐 量 空 用 








EE 的 相互 相 








ed 


E. 
显示 少量 具 




















其 是 网 页 查询 。 例 如 ， 如 果 搜索 “ 星 ”， 人 们 可 能 在 寻找 电 
EE 是 天 体 , 这 显然 是 两 个 区 别 很 大 的 主题 。 
似 性 有 助 于 将 相似 文档 分 在 一 起 ， 也 就 是 说 ， 找 到 文件 “ 聚 类 ”。 




















有 代表 性 的 原型 。 
[分 类 提供 帮助 。 此 外 ， 如 果 用 户 对 文档 d 感 兴 
的 文档 感 兴趣 。 因 此 ， 预 先 计算 聚 类 ， 使 得 用 户 在 因 需 求 检索 
























































Be D 为 根据 相似 性 组 合 在 一 起 的 文档 (或 其 他 实体 ) 集 。 条目 4 € D 的 特征 要 么 是 一 些 内 


部 的 固有 1 








pe 


+ 


E 质 (例如 包含 的 词 ， 


以 及 TF-IDF 空间 中 的 坐标 )， 要么 是 通过 外 部 的 距离 度量 









































6(di, d2) 或 对 p(di,d2) 之 间 的 相似 性 。 实 例 有 欧 氏 距离 、 点 积 、 杰 卡 德 系数 。 定 义 了 度量 之 

















后 ， 可 以 使 用 通 第 的 目 


绍 过 。 


























Ji fa) EEK E 





顶 向 下 的 聚 类 技术 。 这 些 方法 已 经 在 第 15 草 和 第 16 章 介 








连接 站 点 的 














网 页 挖 拥 





网 页 包含 类 型 广泛 的 数据 ， 有些 是 有 结构 的 ， 有 些 是 有 部 分 结构 的 , 还 有 些 是 完全 没 
有 结构 的 。 MRAM SMe RAN TTI, 用 以 访问 网 页 、 收 获 其 中 所 载 的 信息 ,以 及 为 搜 
By 信息 检索 和 排名 准备 数据 结构 。 

通过 将 文本 转换 成 数据 向 量 (例如 向 量 - 空 间 模 型 中 的 所 选单 词 的 频率 ), 可 以 重用 传 
统 的 ML 技术 , 但 是 网 页 文档 中 丰富 的 结构 适用 于 一 些 更 专门 的 分 析 。 
技术 查找 文档 (网 页 链接 ) 之 间 的 显 式 关系 、 推 断 隐 式 关 系 〈 通 过 聚 类 )、 在 
网 络 上 排名 最 相关 的 页 面 , 或 在 社交 网 络 中 识别 最 相关 和 人 脉 最 广 的 人 。 抽象 
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使 我 们 能 对 


网 页 和 社交 网 络 使 用 类 似 的 工具 。 
工具 (本 征 向 量 和 本 征 值 ) 的 使 用 , 过 去 曾 在 文献 计量 学 中 给 研究 者 排名 ， 如今 带 来 了 非 
第 强大 的 网 页 排名 技术 ,也 是 谷歌 的 搜索 引擎 技术 的 基础 。 

从 今 往 后 , 你 再 看 到 超 链 接 、Facebook | 
到 这 本 书 时 最 流行 的 社交 软件 ) 时 , 你 会 用 不 同 以 往 的 分 析 思 维和 观点 来 看 待 它们 。 





























个 值得 注意 的 例子 是 , 超 链 接 和 线性 代数 




















上- 的 “ 赞 ” 和 Twitter 上 的 “粉丝 ”( 或 者 你 读 
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诽谤 是 微风 ,温柔 的 和 风 ， 
它 不 知 不 觉 地 、 巧妙 地 、 轻 轻 地 和 甜 甜 地 ， 


开始 窃窃 私语 。 


一 一 罗 西 尼 ,《 塞 维 利 亚 的 理发 师 》 





























口 口 相传 一 直 是 一 种 强大 而 有 效 的 技术 , 在 人 与 人 之 间 病 毒 式 传播 信息 和 观点 。 它 以 分 
布 式 和 人 力 的 方式 来 挖掘 隐藏 在 人 脑海 中 的 数据 。 它 是 有 效 的 ， 因 为 我 们 自然 倾向 于 与 相似 
的 人 说 话 , 分 享 生活 的 习惯 、 观 点 和 方式 。 通 过 与 挑选 出 来 的 少数 人 进行 交流 , 我 们 可 以 有 效 
地 过 滤 数 据 。 然 后 ,由 我 们 来 决定 、 整 合 和 权衡 接收 到 的 信息 , 并 做 出 最 终 决 定 。 类 似 的 过 程 
可 以 通过 数据 挖 据 和 建 模 方法 来 模拟 。 人 们 从 原始 数据 中 (数量 巨大 , 范围 从 几 千 到 十 亿 项 ) 
提取 信息 ,它们 与 特定 的 最 终 用 户 相 关 , 基于 其 显 式 或 隐 式 的 偏好 模型 ， 以 及 与 其 他 人 的 相 
似 性 。 

一 个 有 趣 的 应 用 是 在 营销 部 门 : 收集 用 户 和 产品 的 相关 数据 , 无 论 是 购买 过 的 还 是 仅 评 
价 过 的 , 这 些 数据 可 以 用 于 估计 客户 将 如 何 评 估 一 个 之 前 没有 见 过 的 产品 。 预测 评估 的 最 终 
目的 是 鼓励 用 户 购买 , 例如 推荐 相应 的 预测 评价 最 高 的 物品 清单 。 如 果 是 基于 用 户 的 偏好 过 
滤 所 呈现 的 产品 ,那么 广告 会 更 奏效 。 另 一 个 应 用 是 网 页 挖掘 ， 目 标 是 在 搜索 信息 时 确定 用 
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户 可 能 感 兴趣 的 网 页 。 因 此 ,目的 在 于 让 信息 仿照 口 口 相传 的 模式 扩散 , 无 论 是 正面 (赞誉 ) 
还 是 反面 (诽谤 ) 意见 。 

协同 过 滤 和 推荐 是 通过 从 许多 其 他 合作 者 收集 品味 信息 来 预测 一 个 人 的 兴趣 点 的 方法 。 
一 个 潜在 的 假设 是 , 过 去 兴趣 一 致 的 人 , 将 来 的 兴趣 也 倾向 于 一 致 例如 , 给 定 关 于 用 户 品 味 
的 一 些 信息 以 及 从 许多 其 他 用 户 那 里 收集 的 信息 ,电影 的 协同 推荐 系统 可 预测 用 户 个 人 喜欢 


哪些 电影 。 
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表 26-1 评分 矩阵 
He 1 电影 2 电影 3 电影 4 
用 户 1 1 4 2 1 
用 户 2 1 5 1 0 
用 户 3 1 0 0 0 























73 —7 FA Pin A FEE R, 其 中 每 一 个 元 (entry) ry, 的 值 是 用 户 w 对 项 目 i 的 评分 ， 
K 26-1 所 示 。 每 个 用 户 w 可 以 选 出 物品 i 在 区 间 [最 低 分 数 , 最 高 分 数 ] 中 的 分 数 。 具体 来 
» 假设 最 低 分 数 = 1, 最 高 分 数 = 5, 值 0 表示 未 知 分 数 。 想 预测 矩阵 中 未 知 的 分 数 ， 要么 
过 一 些 直 接 的 方式 ,要么 通过 更 紧凑 的 方式 来 表示 数据 ,并 通过 该 紧凑 表示 来 预测 。 
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26.1 ”通过 相似 用 户 结合 评分 


有 一 个 简单 的 方法 来 预测 未 知 的 评分 ru 考虑 其 他 用 户 对 同一 个 项 目 i 的 评分 , 以 及 用 
Fu 和 其 他 用 户 的 相似 性 。 一般 的 未 知 评分 rw 由 如 下 公式 计算 : 


XO 相似 性 (w,) -rri 
已 知 ri 
“相似 性 ww 月 es 
未 知 ri 

该 用 户 的 评分 通过 其 他 用 户 评 分 的 加 权 平 均值 来 预测 , 权重 由 相似 性 给 出 , 如 图 26-1 所 
示 。 其 原因 是 相似 的 用 户 往往 给 出 相似 的 评分 。 若 上 述 式 子 的 分 母 为 0, 则 ru 默认 计算 为 所 

有 已 知 评分 ree 的 平均 值 。 若 项 目 i 没有 人 评分 , 则 ri 为 0。 
以 类 似 的 方式 ， 可 以 对 同一 用 户 对 不 同 项 目的 评分 求 平均 值 ， 权重 与 项 目 之 间 的 相似 性 
成 正比 , 如 图 26-1 下 半 部 分 所 示 ( 相 似 的 项 目 往 往 以 相似 的 方式 来 判断 )。 
问题 的 关键 是 如 何 度 量 相似 性 。 在 此 简化 的 背景 下 ,关于 用 户 的 仅 有 的 知识 必须 通过 他 
对 过 去 不 同 项 目的 评价 得 到 。 因 此 , 在 式 (26.1) 中 ,两 个 用 户 (w,k) 之 间 的 相似 性 通过 度量 
两 个 向 量 (vy, vk) 一 一 评分 矩阵 RE u 行 和 第 开行 一 一 之 间 的 相似 性 得 到 。 
在 标准 实现 中 , 可 以 使 用 两 个 向 量 之 间 通 常 的 余弦 相似 性 , 但 如 15.2 节 所 说 的 , 也 可 以 
检验 不 同 的 针对 有 具体 问题 的 度量 。 
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相 
似 
性 
用 户 
相似 性 
图 26-1 ”协同 推荐 。 要 预测 未 知 值 , 可 以 计算 已 知 值 的 加 权 平 均 , 权重 取决 于 用 户 或 项 目 之 间 的 

















相似 性 


说 实话 ， 人 们 表达 意见 的 方式 非常 不 同 。 对 于 同一 部 电影 ， 一 个 保守 的 英国 评论 者 的 评 
价 是 “ 尚 可 ”， 而 一 个 夸张 的 意大利 评论 者 的 评价 则 可 能 是 “梦幻 般 的 电影 ”。 如 果 你 听从 某 
个 十 分 挑剔 的 评论 者 的 观点 ， 最 终 你 就 没什么 电影 可 看 了 , 因此 在 用 这 些 评价 度量 相似 性 并 
进行 预测 之 前 , 减少 个 体 评估 的 作用 可 能 是 有 用 的 。 

S raj 是 用 户 u 对 物品 j 的 评分 。 令 五 是 用 户 u 已 评分 的 项 目的 集合 。 用 户 u 的 平均 
评分 为 元 = ae Tujo 活跃 用 户 用 下 标 a 表示 。 目 标 是 预测 用 户 对 项 目 i 的 偏好 , 或 
Paio 


































































































因为 评分 可 能 不 以 零 为 中 心 ,所 以 该 系统 较 难 通过 标量 积 再 现 这些 评 分 。 为 了 帮助 该 系 
统 ， 也 可 以 减 去 平均 值 ， 从 而 得 到 中 心 化 的 数据 。 有 具体 来 说 ,预测 可 以 通过 下 式 计算 : 


5 Wau (Tui > Fu) 
u 
2 Wau 
u 


其 中 对 u 求 和 是 指 评价 过 项 目 i 的 用 户 集合 , 而 wau 是 活跃 用 户 a 和 用 户 wv 之 间 的 权重 。 该 
A HEAY RE SAY BEAR KAR BL: 



































Pai S Ta1 





(26.2) 






































D Ca = Ta) (Tui = Tu) 
Je = P Eu T a 


(26.3) 





Wau = 








对 i 求 和 是 指 集合 Iu N Tao 
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26.2 ”基于 和 矩阵 分 解 的 模型 


原始 的 用 户 -项 目 评分 矩阵 的 稀 踊 性 (sparsity) 可 能 是 个 问题 。 每 个 用 户 评价 的 项 目 只 
一 个 很 小 的 子 集 , 大 多 数 项 目的 评分 是 未 知 的 。 通过 将 用 户 特征 压缩 和 总 结 到 小 得 多 的 向 量 ， 
有 望 得 到 更 好 的 泛 化 结果 , 并 能 更 好 地 理解 模型 ,正如 奥 卡 姆 剃刀 原理 所 解释 。 
有 一 种 确定 用 户 对 于 某 个 项 目的 兴趣 或 者 评分 的 可 行 方法 ,是 给 每 个 用 户 和 每 个 项 目 都 
关联 一 个 特征 向 量 (vector of characteristics), 然后 通过 观察 用 户 和 项 目的 特征 向 量 之 间 的 相 
似 性 推测 出 评分 。 访 操作 可 以 人 工 来 完成 , 但 可 能 非常 耗 时 ,也 可 能 无 法 识别 对 于 预测 至 关 
重要 的 某 些 特征 。 接 下 来 看 看 这 一 过 程 是 如 何 实现 自动 化 。 
用 问 量 q; € Rf 表示 项 目 i 的 特征 (因子), E p, E R 表示 用 户 w 对 此 项 目的 每 个 因 
数 感 兴趣 的 程度 。 通过 简单 计算 相应 向 量 的 标量 积 , 就 能 得 到 用 户 u 对 项 目 i 的 评分 : 


f = 4) Py (26.4) 


例如 ,如 果 人 工 建立 这 些 因 子 , 电影 《终结 者 》 的 权重 可 以 是 (动作 = 5, 浪漫 = 1), FA Pe 
特 里 夏 对 电影 的 兴趣 是 (动作 = 2, 浪漫 = 5), 因此 用 户 帕 特 里 夏 对 电影 《终结 者 》 的 评分 是 
5.2+1.5=15。 
在 通过 建立 有 效 因 子 来 预测 评价 的 自动 化 方式 中 ,传统 的 奇异 值 分 解 (SVD) 可 用 于 查 
RAHI qi 和 pu。 使 用 SVD 可 将 包含 所 有 评分 的 矩阵 ROMA R= USM", PERE 
U 和 M 的 行 是 p, 和 gq; 的 集合 , FARE 允 进行 缩放 。 通过 调整 马 的 对 角 线 值 的 大 小 ， 
可 以 降低 向 量 的 维 数 , 并 且 仅 保留 最 相关 的 部 分 。 不 幸 的 是 , 大 多 数 情况 下 , 无 法 得 到 评分 矩 
阵 所 有 单元 的 值 。 

基于 优化 的 更 加 灵活 和 健壮 的 学 习 算 法 ， 可 以 用 来 找到 因子 向 量 q 和 p,, 有 效 的 近似 
值 。 像 往常 一 样 ,表达 评分 的 实例 引导 学 习 过 程 。 为 了 学 习 因 子 向 量 q; 和 p,, 需要 最 小 化 已 
知 评分 集合 上 的 正则 化 平方 误差 (RSE ): 


RSE= 天 5 (ru — qfps) + Mllaill? + Pull?) (26.5) 


IK| (wi)EK 

其 中 , K 是 已 知 ru (训练 集 ) 的 (w i) 对 的 集合 。 要 知道 , 求 和 的 第 一 项 是 模型 qrp, 与 
己 知 结果 ri 之 间 的 平方 误差 。 想 要 促进 泛 化 (预测 新 评价 ), 通过 正比 于 常数 和 的 方式 来 您 
罚 因 子 向 量 的 大 小 是 有 用 的 。 这 一 项 叫 作 正则 项 。 当 评分 实例 十 分 丰富 时 ,大 部 分 RSE 的 页 
献 来 源 于 重建 表达 评分 的 误差 。 男 一 方面 ， 当 评分 稀少 时 , 正则 项 就 变 得 至 关 重 要 , 它 的 作用 
是 避免 出 现 非 常 大 的 向 量 , 这 些 非常 大 的 向 量 会 给 预测 带 来 潜在 的 巨大 (和 错误 的 ) 影响 。 

现在 的 问题 是 最 小 化 自由 参数 p, 和 gq; 的 一 个 连续 函数 , 第 21 章 中 说 明 的 方法 可 以 用 
在 这 里 , 例如 传统 的 梯度 下 降 法 。RSE 的 梯度 计算 如 下 : 


ORSE 2 
Oa, K] > (ru — qi Pu)(—Pu) + Aas) 
di (u, i)EK 
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Fa D (re Fp)(-q) + Au) 
(wi)ek 

项 1/IK| 是 一 个 常数 ， 不 会 影响 最 小 化 的 结果 。 可 以 从 q; Bp, 的 随机 初始 值 开始 ， 然 后 进 
(TEAC: 在 每 一 步 中 ， 沿 着 负 梯度 方向 稍微 进行 改变 ,以 减 小 RSE 误差。 
更 精确 的 模型 : 加 入 偏差 
如 26.1 节 所 示 的 简单 的 方法 的 情况 , 用 户 _ 对 项 目 ; 的 评分 并 不 仅 依 束 于 两 个 向 量 p, 和 
a, 之 间 的 互动 qzp,， 还 依赖 于 用 户 或 项 目的 偏差 。 换 名 话说 , 有 的 人 往往 给 予 较 高 的 评价 ,而 
有 的 项 目 常常 得 到 比 别 的 项 目 更 高 的 评价 。 关于 评价 ri 的 偏差 可 以 描述 为 bs = p+ bi + bu 
其 中 是 总 体 平均 值 , 6; A bu 是 用 户 u AIRE ; 分 别 观察 到 的 平均 偏差 。 例 如 ， 俱 设想 要 
估计 用 户 乔 对 电影 《 秦 坦 尼克 号 》 的 评价 。 假设 所 有 电影 的 平均 得 分 / 为 3.7 FL EB, (F 
坦 尼 克 号 》 比 普通 电影 更 好 ， 因 此 它 比 平均 值 高 出 0.5 星 。 另 一 方面 ， 乔 是 一 个 苛刻 的 用 户 ， 
常 党 给 出 低 于 平均 分 0.3 星 的 分 值 。 因 此 ， 乔 对 《泰坦 尼克 号 》 的 评分 的 基准 估计 是 3.9 星 
(3.7 + 0.5 — 0.3). 

根据 这 个 改进 的 模型 ， 估 计 用 户 对 项 目 i 的 评分 fu 的 计算 公式 为 ， 



























































































































































Fui = U+ bi + bu + qF Pu (26.6) 





观察 到 的 评分 被 分 解 为 4 个 组 成 部 分 : 全 局 平均 值 、 项 目 偏差 、 用 户 偏差 以 及 用 户 -项 目 交 
互 。 这 使 得 每 个 组 成 部 分 仪 解释 评价 中 与 其 相关 的 一 部 分 。 学 习 算法 通过 最 小 化 下 面 考虑 偏 
差 因 子 的 正则 化 平方 误差 函数 (RSEB) 进行 学 习 : 
















































































RSEB = gj D(a 一 pp) + Mull? + lai? +02 + 82) (26.7) 
uiEK 

通常 默认 程序 从 推导 梯度 和 使 用 最 速 下 降 开始 。 使 用 最 速 下 降 的 一 个 分 解 过 程 见 图 26-2: 
随 着 梯度 下 降 的 迭代 步 数 增加 ， 正 如 所 料 ,训练 集 上 的 误差 ( 均 方 根 误差 , RMSE) 减少 在 
测试 集 (训练 期 间 没有 使 用 的 评分 ) 上 ， 误 差 先 减少 , 但 随后 达到 一 个 平台 , 最终 逐渐 增加 。 
这 是 过 拟 合 的 一 个 实例 : 系统 试图 精确 地 再 现 训练 实例 ， 但 泛 化 能 力 却 变 差 了 。 想 想 一 个 学 
生 通过 死记 硬 背 学 习 , 如 果 不 理解 学 习 材 料 ， 也 无 法 提取 相关 关系 。 
注意 优化 的 力量 和 灵活 性 : 如 果 将 附加 项 添加 到 模型 里 ,可 立即 通过 计算 新 的 偏 导数 并 
将 其 插入 最 小 化 算法 来 确定 最 佳 参数 。 如 果 知道 如 何 优化 ,就 可 以 专注 于 问题 的 定义 ,然后 
迅速 尝试 很 多 可 供 选择 的 模型 ， 以 及 在 验证 数据 上 测试 得 到 的 泛 化 结果 。 
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训练 数据 一 一 
测试 数据 一 > 


RMSE 











0.9 1 po a 1 po il 1 1 ere 
1 10 100 1000 


图 26-2 一 个 实际 的 分 解 过 程 : 训练 和 测试 性 能 表示 为 梯度 下 降 的 迭代 步 数 的 函数 
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当 潜 在 客户 访问 您 的 电 商 门户 网 站 时 , 他 会 查看 一 些 商 品 ， 加 入 购物 车 并 购买 , 撰写 
评论 并 打分 ， 留 下 了 痕迹 和 气味, 训练 有 素 的 “鼻子 ”能 够 探测 到 。 

所 有 这 些 信息 都 能 帮助 你 提升 你 的 服务 : 就 像 一 个 好 的 店主 ， 他 能 叫 出 顾客 的 名 字 ， 
并 主动 展示 他 们 可 能 最 喜欢 的 东西 , 个 性 化 定制 的 商品 展示 能 让 你 的 网 站 更 吸引 客户 。 

协同 过 滤 正 是 这 方面 的 选择 : 通过 记忆 和 分 析 客 户 的 行为 , 能 够 同步 描绘 访问 者 和 商 
品 特征 , 通过 类 似 的 购物 习惯 对 人 们 进行 分 组 ,并 预测 客户 可 能 最 喜欢 哪些 商品 。 这 种 个 
性 化 的 过 程 不 需要 特定 的 领域 知识 , 只 需要 欣 掘 客户 的 集体 行为 。 这 就 是 一 个 书 采 子 教授 
最 终 可 以 胜任 复杂 的 时 尚 业务 顾问 的 原因 。 

现在 ,在 点 击 你 喜爱 的 在 线 报纸 的 一 个 八卦 标题 之 前 请 三 
有 越 来 越 多 的 八卦 新 闻 出 现在 你 的 个 性 化 主页 里 (也 许 还 会 出 
这 是 分 享 营销 数据 和 行为 重 定向 策略 所 导致 的 )。 













































































思 。 如 有 果 你 这 样 做 , 那么 将 
现在 你 访问 的 不 同 网 站 
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如 今 是 人 工 智 能 高 歌 猛 进 的 时 代 ， 机 器 学 习 的 发 展 也 如 火 如 茶 。 然 而 ， 复 杂 的 数学 公式 和 难 解 的 专业 
术语 容易 令 刚 接触 这 一 领域 的 学 习 者 望 而 生 晨 。 有 没有 这 样 一 本 机 器 学 习 的 书 ， 能 据 弃 复杂 的 公式 推导 ， 
带领 读者 通过 实践 来 掌握 机 器 学 习 的 方法 ? 


《机 器 学 习 与 优化 》 正 是 这 样 一 本 书 ! 它 的 写作 脱胎 于 意大利 特 伦 托 大 学 机 器 学 习 与 智能 优化 实验 室 
(LION lab) 的 研究 项 目 ， 语 言 轻松 幽默 ， 内 容 图 文 并 诚 ， 涵 盖 了 机 器 学 习 中 可 能 遇 到 的 各 方面 知识 。 更 
重要 的 是 ， 书 中 特别 介绍 了 两 个 机 器 学 习 的 应 用 ， 即 信息 检索 和 协同 推荐 ， 让 读者 在 了 解 信息 结构 的 同 
时 ， 还 能 利用 信息 来 预测 相关 的 推荐 项 。 


本 书 作者 以 及 读者 群发 布 的 数据 、 指 导 说 明和 教学 短片 都 可 以 在 本 书 网 站 上 找到 : https://intelligent 
—optimization.org/LIONbook/. 


本 书 内 容 要 点 : 
O— 监督 学 习 一 一 线性 模型 、 决 策 森 林 、 神 经 网 络 、 深 度 和 卷 积 网 络 、 支 持 向 量 机 等 
Oor 无 监督 模型 和 聚 类 一 一 K 均 值 、 自 底 而 上 聚 类 、 自 组 织 映 射 、 谱 图 绘制 、 半 监督 学 习 等 


2 优化 是 力量 之 源 一 一 自动 改进 的 局 部 方法 、 局 部 搜索 和 反馈 搜索 优化 、 合 作 反 馈 搜 索 
优化 、 多 目标 反馈 搜索 优化 等 


O— 应 用 精 选 一 一 文本 和 网 页 挖 握 ， 电 影 的 协同 推荐 系统 





图 灵 社 区 : iTuring.cn 


ISBN 978-7-115-48029-3 
BM LIONIab | | 
Trento University 
热线 : (010)51095186 转 600 9 "787115 480293 > 





ISBN 978-7-115-48029-3 
ss» ga 4 ~ 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com, 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 CARMA : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


